論文の概要: Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data
- arxiv url: http://arxiv.org/abs/2606.08520v1
- Date: Sun, 07 Jun 2026 08:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.182643
- Title: Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data
- Title(参考訳): VLMから一般化可能なVLAへ - 軌道結合データを用いた2つの橋-
- Authors: Linqi Yin, Shiduo Zhang, Shenling Qiu, Chenxin Li, Zhaoyang Fu, Lei Xiao, Xiang Wang, Chenchen Yang, Zhe Xu, Pengfang Qian, Jingjing Gong, Xipeng Qiu, Xuanjing Huang, Yu-Gang Jiang,
- Abstract要約: 視覚言語モデル(VLM)は強力な汎用推論器であるが、ロボット制御ポリシーに変換することは驚くほど難しい。
このギャップは、適切な中間データで徐々にブリッジできると我々は主張する。
本研究では,タスク関連アウト・オブ・ディストリビューションETCデータと少量のアクションデータとを混合することにより,新しい視覚言語条件に一般化できることを示す。
- 参考スコア(独自算出の注目度): 93.7685703383343
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-language models (VLMs) are powerful general-purpose reasoners, yet converting them into robot control policies (VLAs) is surprisingly difficult. The root cause is a two-fold gap: VLMs are trained on internet-scale images with language-understanding objectives, while VLAs must perceive robot scenes and predict motor actions. Fine-tuning a VLM directly on robot action data forces the model to cross both gaps at once -- the learning curve is steep and the rich generalizations learned during pretraining tend to degrade rather than transfer. We argue that this gap can be bridged gradually with the right intermediate data. We introduce \emph{embodied trajectory-coupled (ETC) data} -- vision-language supervision derived from the same robot scenes and trajectories used for action learning. Because ETC data shares the visual context of robot operation while retaining familiar language-understanding objectives, it provides a natural stepping stone between VLM pretraining and VLA fine-tuning. Building on this, we design a three-stage training recipe. Distribution Bridging first adapts the VLM to embodied visual-language semantics. Objective Bridging then gradually shifts the model toward action prediction while preserving the acquired representations. Retentive Adaptation finally specializes the policy to the target deployment domain. We further show that mixing task-relevant out-of-distribution ETC data with a small amount of action data enables the model to generalize to novel visual-language conditions without requiring additional robot demonstrations. Simulation and real-robot experiments confirm that this gradual bridging strategy is the key to transferring VLM generalization into robust, deployable robot policies.
- Abstract(参考訳): 視覚言語モデル(VLM)は強力な汎用推論器であるが、ロボット制御ポリシー(VLA)に変換することは驚くほど難しい。
VLMは言語に基づく目的を持ったインターネットスケールの画像で訓練され、VLAはロボットのシーンを知覚し、運動行動を予測しなければならない。
VLMをロボットのアクションデータに直接チューニングすることで、モデルを一度に両方のギャップを横切ることができる。学習曲線は急勾配であり、事前学習中に学んだリッチな一般化は、転送よりも劣化する傾向にある。
このギャップは、適切な中間データで徐々にブリッジできると我々は主張する。
我々は,同じロボットシーンと行動学習に使用される軌跡から導かれる視覚言語指導データである,emph{embodied trajectory-coupled (ETC)データを紹介した。
ETCデータは、慣れ親しんだ言語に基づく目的を維持しながら、ロボット操作の視覚的コンテキストを共有するため、VLMプレトレーニングとVLAファインチューニングの間に自然なステップストーンを提供する。
これに基づいて、私たちは3段階のトレーニングレシピを設計します。
Distribution Bridgingはまず、VLMを視覚言語意味論の具体化に適応させる。
対象ブリッジングは、取得した表現を保存しながら、モデルをアクション予測に向けて徐々にシフトさせる。
Retentive Adaptationは、最終的にターゲットのデプロイメントドメインに対するポリシーを専門化する。
さらに,タスク関連アウト・オブ・ディストリビューションETCデータと少量のアクションデータとを混合することにより,ロボットによるデモンストレーションを必要とせず,新たな視覚言語条件に一般化できることを示す。
シミュレーションと実ロボット実験により、この段階的なブリッジング戦略が、VLMの一般化を堅牢でデプロイ可能なロボットポリシーに移行する鍵であることを確認した。
関連論文リスト
- DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - ST4VLA: Spatially Guided Training for Vision-Language-Action Models [80.35847468618276]
大規模視覚言語モデル(VLM)はマルチモーダル理解において優れるが、具体化されたタスクに拡張されると不足する。
本稿では,動作学習と空間的先行時間との整合性を実現するための2元系ビジョン・ランゲージ・アクション・フレームワークST4VLAを紹介する。
ST4VLAは、Google Robotでは66.1 -> 84.6、WidowX Robotでは54.7 -> 73.2、バニラVLAよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-02-10T18:59:17Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。