論文の概要: World Pilot: Steering Vision-Language-Action Models with World-Action Priors
- arxiv url: http://arxiv.org/abs/2606.12403v1
- Date: Wed, 10 Jun 2026 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 14:03:02.499756
- Title: World Pilot: Steering Vision-Language-Action Models with World-Action Priors
- Title(参考訳): World Pilot:World-Action Presidesを備えたステアリング・ビジョン・ランゲージ・アクションモデル
- Authors: Zefu Lin, Rongxu Cui, Junjia Xu, Xiaojuan Jin, Wenling Li, Lue Fan, Zhaoxiang Zhang,
- Abstract要約: Vision-Language-Action(VLA)モデルは、大規模な事前トレーニングからセマンティックグラウンドを継承する。
World Pilotは、World-Action Model(WAM)の事前設定でポリシーを強化する
World PilotはLIBERO-PlusゼロショットOODベンチマークで84.7%という最先端のトータル成功率を達成した。
- 参考スコア(独自算出の注目度): 21.867210989881016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models inherit semantic grounding from large-scale pretraining and perform competently across in-distribution manipulation tasks. This grounding, however, is built on static image-text pairs, whereas manipulation is a continuous, contact-rich process whose dynamics this pretraining cannot capture. We present World Pilot, a VLA framework that augments the policy with priors from a World-Action Model (WAM), routed into the decision chain through two complementary pathways. Latent Steering conditions the perception layer on a scene-evolution latent, and Action Steering supplies an anticipated trajectory as a motion prior to the action generator. Together the two priors equip the VLA with an anticipated view of the scene and a trajectory-level motion hint alongside its semantic conditioning, and the scene-evolution prior remains effective even when supplied by a video-pretrained world model that has not been action-post-trained. World Pilot attains a state-of-the-art Total success rate of 84.7% on the LIBERO-Plus zero-shot OOD benchmark and the highest success rate on every real-robot setting across four manipulation tasks, with the largest margins under shifts in viewpoint, geometry, deformable state, and pose. Project Website: https://world-pilot.github.io/
- Abstract(参考訳): Vision-Language-Action (VLA)モデルは、大規模な事前学習からセマンティックグラウンドを継承し、配布内操作タスクで有能に実行する。
しかし、この基盤は静的な画像とテキストのペアの上に構築されている。
我々は、ワールド・アクション・モデル(WAM)に先立ってポリシーを強化するVLAフレームワークであるWorld Pilotを紹介します。
ラテントステアリングはシーン進化遅延剤の認識層を条件付け、アクションステアリングはアクションジェネレータの前の動きとして期待される軌道を提供する。
2つの前者は、VLAに、シーンの期待されたビューと、そのセマンティックコンディショニングと共に軌道レベルのモーションヒントを装備し、アクションポストトレーニングされていないビデオ制約された世界モデルによって供給された場合でも、シーン進化前の前も有効である。
World Pilotは、LIBERO-PlusゼロショットOODベンチマークで84.7%という最先端の総成功率と、4つの操作タスクにまたがる実際のロボット設定における最高成功率を達成している。
Project Website: https://world-pilot.github.io/
関連論文リスト
- Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data [93.7685703383343]
視覚言語モデル(VLM)は強力な汎用推論器であるが、ロボット制御ポリシーに変換することは驚くほど難しい。
このギャップは、適切な中間データで徐々にブリッジできると我々は主張する。
本研究では,タスク関連アウト・オブ・ディストリビューションETCデータと少量のアクションデータとを混合することにより,新しい視覚言語条件に一般化できることを示す。
論文 参考訳(メタデータ) (2026-06-07T08:57:51Z) - WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation [31.224842983083803]
航空VLNのための世界初の自己回帰的世界行動モデルであるWorldVLNを提案する。
WorldVLNは、短水平世界状態遷移を予測するために、遅延自己回帰ビデオバックボーンを適用する。
WorldVLNは、既存のVision-Language-Actionベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-15T13:55:39Z) - Grounded World Model for Semantically Generalizable Planning [94.53923128709965]
我々は、視覚言語対応の潜在空間において、グラウンドドワールドモデル(GWM)を学習する。
提案された各アクションは、タスク命令に対する将来の結果がどの程度近いかに基づいてスコアされる。
提案したWISERベンチマークでは、GWM-MPCはテストセットで87%の成功率を達成した。
論文 参考訳(メタデータ) (2026-04-13T17:25:41Z) - Learning Vision-Language-Action World Models for Autonomous Driving [15.103497388527943]
VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
論文 参考訳(メタデータ) (2026-04-10T07:38:05Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。