論文の概要: APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies
- arxiv url: http://arxiv.org/abs/2606.12366v1
- Date: Wed, 10 Jun 2026 17:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 14:04:58.450585
- Title: APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies
- Title(参考訳): APT:Action Expert Pretrainingはビジョン・ランゲージ・アクション・ポリシーのインストラクション・ジェネレーションを改善する
- Authors: Kechun Xu, Zhenjie Zhu, Anzhe Chen, Rong Xiong, Yue Wang,
- Abstract要約: 本稿では,アクションエキスパートのPreTrainingを重視した2段階のトレーニング手法を提案する。
ステージ1では、アクションエキスパートは、凍結したVLMから視覚アクションペアに先立ってVAとして事前訓練され、言語不均衡を回避します。
ステージ2では、言語トークンはゲート融合機構を通じて注入され、VLMの機能を統合すると同時に、学習したビズモレータを事前に保存する。
- 参考スコア(独自算出の注目度): 22.87409999086972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models that couple pretrained Vision-Language Models (VLMs) with continuous action experts have achieved strong manipulation performance, yet generalization to out-of-distribution (OOD) language instructions remains poor. A known challenge is the structural imbalance in VLA data, where language is far less diverse than visual and action content, making policies prone to visual shortcuts. While discrete-action methods mitigate this through vision-language co-training, continuous action experts lack such protection: they start from random initialization and learn entirely from imbalanced data, producing noisy gradients that corrupt the VLM and fail to exploit its language capability. We address this from a Bayesian perspective, factorizing the policy into a language-agnostic Vision-Action (VA) prior and a language-conditioned VLA likelihood, and propose APT, a two-stage training method emphasizing Action expert PreTraining. In Stage 1, the action expert is pretrained as a VA prior on vision-action pairs from a frozen VLM, bypassing the language imbalance. In Stage 2, language tokens are injected through a gated fusion mechanism that integrates VLM features while preserving the learned visuomotor prior. APT applies to mainstream VLA architectures, including the $π$ and GR00T-style architectures. Comprehensive experiments validate that APT achieves consistent gains on unseen instructions and compositional tasks. Project Page: https://xukechun.github.io/papers/APT/
- Abstract(参考訳): VLA(Vision-Language-Action)モデルでは、トレーニング済みのVLM(Vision-Language Models)と継続的なアクションエキスパートを併用することで、強力な操作性能を実現しているが、アウト・オブ・ディストリビューション(OOD)言語命令への一般化は依然として不十分である。
既知の課題は、VLAデータの構造的不均衡であり、言語は視覚的および行動的コンテンツよりもはるかに多様性が低く、ポリシーは視覚的ショートカットに傾向がある。
離散アクション手法は視覚言語によるコトレーニングを通じてこれを緩和するが、連続アクションの専門家は、ランダムな初期化から始まり、不均衡なデータから完全に学習し、VLMを破損させ、言語能力の活用に失敗するノイズのある勾配を生み出すという、そのような保護を欠いている。
本稿では、ベイズの観点から、このポリシーを言語に依存しないビジョン・アクション(VA)と言語条件付きVLAに分解し、アクションエキスパートのPreTrainingを強調する2段階のトレーニング手法であるAPTを提案する。
ステージ1では、アクションエキスパートは、凍結したVLMから視覚アクションペアに先立ってVAとして事前訓練され、言語不均衡を回避します。
ステージ2では、言語トークンはゲート融合機構を通じて注入され、VLMの機能を統合すると同時に、学習したビズモレータを事前に保存する。
APTは、$π$やGR00Tスタイルのアーキテクチャを含む、主流のVLAアーキテクチャに適用できる。
総合的な実験により、APTは目に見えない命令や構成タスクに対して一貫した利得を達成できる。
Project Page: https://xukechun.github.io/papers/APT/
関連論文リスト
- Learning What to Say to Your VLA: Mostly Harmless Vision Language Action Model Steering [19.25748772628753]
VLA(Vision-Language-Action)モデルは、ロボット制御のための自然言語インタフェースを提供する。
クローズループVLAタスク性能を改善するための言語シーケンスを対話的に検索するフレームワークを提案する。
私たちは、いつ言語ステアリングがパフォーマンスを改善するかを予測する改善ヘッドを学びます。
論文 参考訳(メタデータ) (2026-06-10T16:34:49Z) - QuoVLA: Quotient Space for Vision-Language-Action Models [51.02329790939691]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
論文 参考訳(メタデータ) (2026-05-24T06:28:53Z) - Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration [24.562540060971273]
VLA(Vision-Language-Action)モデルにより、ロボットは自然言語命令から直接操作タスクを実行することができる。
言語命令がシーンに矛盾する場合でも、VLAポリシーが視覚的に妥当な動作を実行し続ける重要な障害モードを明らかにする。
Instruction-Guided Attention Recalibration (IGAR) を提案する。
論文 参考訳(メタデータ) (2026-03-06T08:01:36Z) - When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs [31.92520697946991]
VLA(Vision-Language-Action Model)は、ロボット制御における言語命令の基盤となることを約束するが、実際には言語に忠実に従わないことが多い。
反ファクトの失敗は、最先端のVLAで発見されていないことが示される。
本稿では,単純な2分岐推論方式であるCAGを提案する。
論文 参考訳(メタデータ) (2026-02-19T18:59:20Z) - Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。