論文の概要: LARA: Latent Action Representation Alignment for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.07100v1
- Date: Fri, 05 Jun 2026 09:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.677246
- Title: LARA: Latent Action Representation Alignment for Vision-Language-Action Models
- Title(参考訳): ララ:視覚・言語・行動モデルのための潜在行動表現アライメント
- Authors: Mengya Liu, Baoxiong Jia, Jiangyong Huang, Jingze Zhang, Siyuan Huang,
- Abstract要約: 潜時行動モデル(LAM)は視覚力学から潜時行動表現を学習し、VLA学習のさらなる監督を提供する。
本稿では,LAMとVLAを協調的に表現アライメントにより最適化するLARA(Latent Action Representation Alignment)を提案する。
プレトレーニング,プレトレーニング後のVLAモデルの強化,およびLAM改善のためのLARAの汎用性と有効性を示す。
- 参考スコア(独自算出の注目度): 21.4758859185298
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual-language action (VLA) models enable robots to predict actions directly from observations and language instructions, but their performance depends on large-scale, high-quality data and is limited by the scarcity of real-world robot action datasets. To facilitate VLA model learning with abundant unlabeled human videos, Latent Action Models (LAM) learn latent action representations from visual dynamics to provide additional supervision for VLA learning. However, LAM and VLA are typically trained separately, leaving LAM ungrounded during VLA training and VLA models constrained by frozen LAM representations. To address these issues, we propose Latent Action Representation Alignment (LARA), a plug-and-play framework that jointly optimizes LAM and VLA via representation alignment. This enables reciprocal benefits where LAMs learn with action trajectories to avoid spurious visual changes, while VLAs are regularized by forward dynamics learned within LAMs to reduce hallucinations of functionally ineffective trajectories. We demonstrate LARA versatility and effectiveness for pre-training, post-training enhancement of pre-trained VLA models, and LAM refinement, achieving an average of ~10%, ~5%, and ~15% improvement over 3 simulation and 1 meticulously designed real-world robotic manipulation benchmarks.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、ロボットが観察や言語指示から直接アクションを予測することを可能にするが、そのパフォーマンスは大規模で高品質なデータに依存し、実際のロボットアクションデータセットの不足によって制限される。
VLAモデル学習を容易にするために、LAM(Latent Action Models)は視覚力学から潜時行動表現を学習し、VLA学習のさらなる監督を提供する。
しかしながら、LAMとVLAは通常別々に訓練され、VLAのトレーニング中にLAMが非基底化され、凍結されたLAM表現によって制限されたVLAモデルが残る。
これらの問題に対処するために,LARA(Latent Action Representation Alignment)を提案する。
これにより、LAMが行動軌跡で学習し、刺激的な視覚的変化を避けることができる一方、VLAはLAM内で学習した前方ダイナミクスによって正規化され、機能的に非効果的な軌跡の幻覚を減少させることができる。
我々は,3つのシミュレーションと1つの精密に設計された実世界のロボットシミュレーションベンチマークに対して,LARAの汎用性と有効性,事前訓練後のVLAモデルの強化,およびLAMの改良を実証した。
関連論文リスト
- QuoVLA: Quotient Space for Vision-Language-Action Models [51.02329790939691]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
論文 参考訳(メタデータ) (2026-05-24T06:28:53Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models [14.202025149504715]
本稿では,既存のVLAモデルの動作予測機能を軽量モデルに転送するフレームワークであるActDistillを提案する。
我々は教師としてよく訓練されたVLAモデルを採用し、グラフ構造化カプセル化戦略を導入し、行動予測の階層的進化を明示的にモデル化する。
具現化されたベンチマークの実験では、ActDistillはフルスケールのVLAモデルと同等または優れた性能を達成し、計算を最大1.67倍のスピードアップで50%以上削減した。
論文 参考訳(メタデータ) (2025-11-22T14:44:03Z) - DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。
このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。
NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-14T17:59:47Z) - Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM)
本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文 参考訳(メタデータ) (2025-06-26T03:06:57Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。