論文の概要: Decoupling the Declarative from the Procedural in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.21496v1
- Date: Fri, 19 Jun 2026 14:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:07:29.146847
- Title: Decoupling the Declarative from the Procedural in Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルにおける手続きからの宣言の分離
- Authors: Nikolaos Tsagkas, Andreas Sochopoulos, Chris Xiaoxuan Lu, Oisin Mac Aodha, Alexandros Kouris,
- Abstract要約: オブジェクト固有のデモから振る舞いをクローンするように訓練されたポリシーは、そのオブジェクトを超えて一般化されなければならない。
情報フローを再構成した新しいビジョン・ランゲージ・アクションモデルであるw$2$VLAを提案する。
最先端のVLAとは異なり、我々のモジュラーアプローチは知識表現の分離に成功している。
- 参考スコア(独自算出の注目度): 65.22639791239932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying generalist robotic agents in the real world requires transferable skills. Specifically, a policy trained to clone a behavior from object-specific demonstrations must generalize beyond that object, otherwise data collection requirements become intractable. Recently, fine-tuning of pre-trained billion-parameter Vision-Language Models (VLMs), initially on large-scale robot datasets and then on fewer scenario-specific demonstrations, has emerged as the predominant paradigm for designing Vision-Language-Action (VLA) models. While these policies achieve state-of-the-art manipulation performance in-distribution, they remain brittle to minor spatial, semantic, and task variations. In this work, we address the inability of current models to decouple the declarative (i.e., concepts and entity semantics) from the procedural knowledge (i.e., how to do something) encoded in their parameters, which is a fundamental bottleneck for zero-shot skill transfer to novel objects. To address this, we propose w$^{2}$VLA, a new VLA model with restructured information flow. Rather than feeding all multimodal tokens from the VLM encoder into a large, opaque transformer-based action expert, our approach modulates the robot state sequence with visual, spatial, and skill information in a compositional and interpretable manner. Unlike popular, state-of-the-art VLAs, we show that our modular approach successfully decouples knowledge representations, enabling robust behavior cloning and unprecedented zero-shot skill transfer capabilities across dissimilar, unseen objects.
- Abstract(参考訳): 現実世界にジェネラリストロボットエージェントを配置するには、トランスファー可能なスキルが必要である。
具体的には、オブジェクト固有のデモから振る舞いをクローンするように訓練されたポリシーは、そのオブジェクトを超えて一般化する必要がある。
近年,VLA(Vision-Language-Action)モデルを設計するための主要なパラダイムとして,最初は大規模ロボットデータセット上で,その後はシナリオ固有のデモが少ないVLM(Vision-Language-Action)モデル(VLM)の微調整が登場している。
これらのポリシーは、最先端の操作性能を分配するが、小さな空間的、意味的、タスクのバリエーションには弱いままである。
本研究では,従来のモデルが宣言的(概念と実体的意味論)を,そのパラメータにエンコードされた手続き的知識(すなわち,どうすればよいか)から切り離すことができないことを論じる。
そこで我々は,情報フローを再構成した新しいVLAモデルw$^{2}$VLAを提案する。
提案手法は,VLMエンコーダのマルチモーダルトークンを大規模で不透明なトランスフォーマーベースのアクションエキスパートに供給するのではなく,視覚的,空間的,スキル情報を合成的,解釈可能な方法でロボットの状態シーケンスを変調する。
一般的な最先端のVLAとは異なり、我々のモジュラーアプローチは知識表現の分離に成功し、ロバストな振る舞いのクローン化と、異種で見えないオブジェクトをまたいだ前例のないゼロショットスキル伝達機能を実現する。
関連論文リスト
- Task Robustness via Re-Labelling Vision-Action Robot Data [15.985610886484226]
本稿では,既存のロボットデータセットを拡張可能なスケーラブルなフレームワークであるRe-Labelling Vision-Action Robot Data (TREAD)によるタスクロバストネスについて紹介する。
提案手法では,従来の命令ラベルと初期シーンからセマンティックなサブタスクを生成し,これらのサブタスクに条件付けされたデモビデオを分割し,オブジェクトプロパティを組み込んだ多様なインストラクションを生成する。
以上の結果から,TREADは軌道分解による計画一般化と言語多様性の向上による言語条件付き政策一般化の両立を図っている。
論文 参考訳(メタデータ) (2026-06-09T14:28:22Z) - Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data [93.7685703383343]
視覚言語モデル(VLM)は強力な汎用推論器であるが、ロボット制御ポリシーに変換することは驚くほど難しい。
このギャップは、適切な中間データで徐々にブリッジできると我々は主張する。
本研究では,タスク関連アウト・オブ・ディストリビューションETCデータと少量のアクションデータとを混合することにより,新しい視覚言語条件に一般化できることを示す。
論文 参考訳(メタデータ) (2026-06-07T08:57:51Z) - $M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills [25.17452377052361]
現在のVision-Language-Action(VLA)モデルは、主にエンドツーエンドの微調整に依存している。
本稿では,汎用VLMがロボット操作の強力なバックボーンとして機能できることを実証するM2$-VLAを提案する。
これを解決するために、密接な意味的特徴からタスククリティカル情報を選択的に抽出するMixture of Layers(MoL)戦略を導入する。
論文 参考訳(メタデータ) (2026-04-27T08:44:12Z) - ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。