論文の概要: Bridging the Morphology Gap: Adapting VLA Models to Dexterous Manipulation via Intent-Conditioned Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.12109v1
- Date: Wed, 10 Jun 2026 14:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.496279
- Title: Bridging the Morphology Gap: Adapting VLA Models to Dexterous Manipulation via Intent-Conditioned Fine-Tuning
- Title(参考訳): 形態ギャップのブリッジ:インテントコンディションファインチューニングによるVLAモデルのデクサラスマニピュレーションへの適応
- Authors: Chuanke Pang, Junyi Huang, Zhijun Zhao, Yaobing Wang, Kun Xu, Xilun Ding,
- Abstract要約: InDexは、クロスモルフォロジーのセマンティック継承に根ざした、新しいデータ効率適応フレームワークである。
InDexは、最小限のデモデータで複雑なスキルを習得し、モノリシックなベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 7.018869512628755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated remarkable zero-shot generalization in robotic manipulation, yet the vast majority of pre-trained pipelines remain strictly confined to low-DoF parallel grippers. Adapting these rich semantic priors to high-DoF dexterous hands introduces a severe morphology gap, direct end-to-end joint fine-tuning inherently causes catastrophic forgetting of spatial reasoning and acute action manifold collapse due to data scarcity. In this paper, we present InDex, a novel, data-efficient adaptation framework rooted in cross-morphology semantic inheritance. Rather than discarding the pre-trained 1-DoF parallel grasp output, we repurpose it as a continuous, macroscopic virtual grasp intent proxy to sequentialize the control topology. We implement a two-stage decoupled learning architecture: the first stage parameter-efficiently aligns the VLA backbone to predict continuous arm trajectories and the scalar grasp intent; the second stage freezes this spatial backbone and leverages an intent-conditioned denoising diffusion head to decode fine-grained joint articulations for multi-fingered end-effectors. Extensive simulation benchmarks across a suite of multi-stage, contact-rich dexterous manipulation tasks demonstrate that InDex effectively masters intricate skills with minimal demonstration data, substantially outperforming monolithic baselines while preserving the robust spatial generalizability of the original VLA prior.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルでは、ロボット操作において目覚ましいゼロショットの一般化が示されているが、事前訓練されたパイプラインの大部分は、低DoF並列グリップに限られている。
これらのリッチなセマンティクスを高DoFディキスタラスハンドに適応させることで、深刻な形態的ギャップが生じ、直接端端から端の関節の微調整が本質的に、空間的推論の破滅的な忘れと、データ不足による急性活動多様体の崩壊を引き起こす。
本稿では、クロスモーフィックなセマンティック継承に根ざした、新しいデータ効率適応フレームワークInDexを提案する。
事前学習した1-DoF並列グリップ出力を捨てるのではなく、連続的でマクロな仮想グリップインテントプロキシとして再利用し、制御トポロジを逐次化する。
第1段は連続した腕の軌跡とスカラーグリップインテンションを予測するためにVLAバックボーンを効率よく整列し、第2段は空間的バックボーンを凍結し、インテンション条件のデノナイジング拡散ヘッドを利用して多指端エフェクタのきめ細かい関節関節をデコードする。
マルチステージ、コンタクトリッチなデキスタラスな操作タスクからなる広範囲なシミュレーションベンチマークにより、InDexは、従来のVLAの堅牢な空間一般化性を保ちながら、モノリシックなベースラインを大幅に上回る、最小限のデモデータで、複雑なスキルを効果的にマスターすることを示した。
関連論文リスト
- Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System [15.427164345561417]
VLA(Vision-Language-Action)モデルは、汎用的なロボット操作において有望なパラダイムである。
本稿では,新しいデュアルシステムVLAアーキテクチャであるLibra-VLAを紹介する。
当社のアプローチは,オープンワールド操作に対して,スケーラブルで堅牢で応答性の高いソリューションを提供しています。
論文 参考訳(メタデータ) (2026-04-27T19:02:46Z) - AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - SVLL: Staged Vision-Language Learning for Physically Grounded Embodied Task Planning [21.113678610046453]
我々は、堅牢で物理的に具体化された計画のための3段階統合フレームワークであるSVLL(Staged Vision-Language Learning)を提案する。
最初の2段階では、SVLLは時間的推論から空間的グラウンドを分離し、シーケンシャルなアクション履歴を導入する前に、堅牢な視覚的依存を確立する。
最終段階では、標準の直接選好最適化(DPO)の重要な制限、すなわち純粋に相対的な性質を識別し、勝利と敗戦の選好ギャップのみを最適化する。
論文 参考訳(メタデータ) (2026-03-12T05:35:29Z) - Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - From Frames to Sequences: Temporally Consistent Human-Centric Dense Prediction [22.291273919939957]
我々は、人間のフレームと、画素精度の深度、正常度、マスクを用いた動き整列を生成するスケーラブルな合成データパイプラインを開発した。
我々は、CSE埋め込みを介して、明示的な幾何学的人体を注入する統合されたViTベースの密度予測器を訓練する。
静的プレトレーニングと動的シーケンス監視を組み合わせた2段階のトレーニング戦略により、まず、ロバストな空間表現を取得し、その後、動きに沿ったシーケンス間で時間的一貫性を洗練できる。
論文 参考訳(メタデータ) (2026-02-02T05:28:58Z) - FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models [11.581489292735418]
デクサラスグリップ合成は機能的意図と物理的実現性を満たす必要があるが、既存のパイプラインはしばしば洗練からセマンティックグラウンドを分離する。
本研究では、事前学習された生成拡散モデルにおいて、対象中心のセマンティックな事前情報を活用することで、ロボットの把握データ収集を回避できるデータ効率フレームワークを提案する。
この結果は,人間の実演と事前学習した生成モデルによって駆動される,スケーラブルでハードウェアに依存しないデキスタラスな操作への道のりを浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-13T06:08:56Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。