論文の概要: FOCA: Future-Oriented Conditioning for Data-Efficient Vision-Language-Action Adaptation
- arxiv url: http://arxiv.org/abs/2606.20867v1
- Date: Thu, 18 Jun 2026 18:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:30:02.28167
- Title: FOCA: Future-Oriented Conditioning for Data-Efficient Vision-Language-Action Adaptation
- Title(参考訳): FOCA:データ効率の良いビジョン・ランゲージ・アクション適応のための将来指向型コンディショニング
- Authors: Duc Minh Nguyen, Nghiem Tuong Diep, Binh Gia Nguyen, Trong-Bao Ho, Doanh Le, Tan Q. Nguyen, Thien-Loc Ha, Nhiem Tran, Bao Thach, Nhat X. Tran, Tuan A. Tran, Artur Habuda, Philip Lund Møller, Tran Nguyen Le, Daniel Sonntag, Matthias Niepert, Khoa D. Doan, Vu Duong, Hung Ngo, Minh N. Vu, Duy M. H. Nguyen, An Thai Le, Ngo Anh Vien,
- Abstract要約: データ効率のよいVLA適応のための未来指向コンディショニングフレームワークFOCAを紹介する。
FOCAはタスク・グラウンドの将来の相互作用の埋め込みの明示的な予測と将来の目標観測への暗黙のアライメントを組み合わせている。
実験では、LIBEROで20回のデモを行い、FOCAが95.7%成功し、RoboCasaで7-12%改善し、実際のロボットで最大26%の絶対ゲインを達成している。
- 参考スコア(独自算出の注目度): 14.178611843420683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models enable general-purpose robotic control via large-scale multimodal pretraining, yet their effectiveness under few-shot imitation learning remains limited. We conduct a systematic stress test of state-of-the-art VLA models and show that performance degrades sharply as demonstrations are reduced, revealing a key weakness of existing adaptation strategies. To address this, we introduce FOCA, a future-oriented conditioning framework for data-efficient VLA adaptation. FOCA combines explicit prediction of task-grounded future interaction embeddings with implicit alignment to future goal observations, enabling long-horizon reasoning in latent space without pixel-level prediction. This formulation naturally supports action-free co-training with synthetic videos from video world models and can be interpreted as learning a future-conditioned value-like representation. Extensive experiments demonstrate FOCA achieves 95.7% success with 20 demonstrations on LIBERO, improves 7-12% on RoboCasa, and delivers up to 26% absolute gains on real robots, establishing a new state of the art in few-shot VLA adaptation.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルでは、大規模なマルチモーダルプレトレーニングによる汎用的なロボット制御が可能だが、数発の模倣学習による効果は限定的である。
我々は、最先端のVLAモデルの系統的ストレステストを行い、実演が減少するにつれて性能が急激に低下し、既存の適応戦略の重要な弱点が明らかになることを示す。
これを解決するために,データ効率のよいVLA適応のための将来指向型コンディショニングフレームワークFOCAを紹介する。
FOCAはタスク基底の将来の相互作用埋め込みの明示的な予測と将来の目標観測への暗黙のアライメントを組み合わせることで、ピクセルレベルの予測なしで潜在空間における長期水平推論を可能にする。
この定式化は、ビデオワールドモデルからの合成ビデオとアクションフリーのコトレーニングをサポートしており、将来条件付きバリューライクな表現を学ぶものとして解釈できる。
大規模な実験では、FOCAはLIBERO上で20回のデモで95.7%成功し、RoboCasaで7-12%改善し、実際のロボットで最大26%の絶対的な利益をもたらし、数発のVLA適応において新たな最先端技術を確立した。
関連論文リスト
- QuoVLA: Quotient Space for Vision-Language-Action Models [51.02329790939691]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
論文 参考訳(メタデータ) (2026-05-24T06:28:53Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Do World Action Models Generalize Better than VLAs? A Robustness Study [25.418384276142223]
視覚言語アクション(VLA)は、様々なロボットタスクで顕著な成功を収めた。
世界行動モデル(WAM)は、将来の状態を予測するために大量のビデオデータに基づいて訓練された世界モデルに基づいて構築される。
LIBERO-Plus と RoboTwin 2.0-Plus のベンチマークにおいて,様々な視覚的・言語的摂動による性能評価を行った。
論文 参考訳(メタデータ) (2026-03-23T15:13:15Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。