論文の概要: Making Foresight Actionable: Repurposing Representation Alignment in World Action Models
- arxiv url: http://arxiv.org/abs/2606.12217v1
- Date: Wed, 10 Jun 2026 15:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.532824
- Title: Making Foresight Actionable: Repurposing Representation Alignment in World Action Models
- Title(参考訳): 目に見える行動を可能にする:世界行動モデルにおける表現アライメントの再構築
- Authors: Lu Qiu, Yizhuo Li, Yi Chen, Yuying Ge, Yixiao Ge, Xihui Liu,
- Abstract要約: World Action Models (WAMs)は、ビデオ生成モデルを使用して将来のシーンの進化をモデル化することで、ロボット操作のための有望なルートを提供する。
目に見える未来を生み出すことは 必ずしも正確な行動の抽出を 保証するとは限らない
本稿では,Action-Grounded Representation Alignmentの目的であるAGRAを提案する。
- 参考スコア(独自算出の注目度): 57.23863557252883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World Action Models (WAMs) offer a promising route for robot manipulation by using video generation models to model future scene evolution before producing control actions. However, our empirical observations reveal a phenomenon: generating plausible visual futures does not always guarantee the extraction of accurate actions. To diagnose this failure, we conduct action-head attention analysis and causal interventions. We find that the action decoder fails to focus on task-relevant interaction regions and remains sensitive to perturbations in task-irrelevant areas. This reveals a representation mismatch: hidden states optimized for visual reconstruction are not inherently organized in a form useful for low-level action control. In this paper, we propose AGRA, an Action-Grounded Representation Alignment objective that regularizes the world-action interface by aligning intermediate video diffusion features with spatially coherent semantic representations from a foundation visual encoder. We evaluate AGRA on real-world manipulation tasks. Experiments show that AGRA makes world model representations more action-grounded: by focusing the action decoder on the correct interaction regions, it improves object localization accuracy and affordance understanding, and makes the policy more robust to perturbations in task-irrelevant regions. As a result, AGRA consistently improves both in-distribution performance and out-of-distribution generalization over the baseline world action model.
- Abstract(参考訳): World Action Models (WAM)は、制御アクションを生成する前に、ビデオ生成モデルを使用して将来のシーン進化をモデル化することで、ロボット操作のための有望なルートを提供する。
しかし、我々の経験的観察では、もっともらしい視覚的未来を生成することは、必ずしも正確な行動の抽出を保証しているとは限らない、という現象が明らかになっている。
この障害を診断するために、アクション・ヘッド・アテンション分析と因果的介入を行う。
動作デコーダはタスク関連相互作用領域に焦点を合わせず,タスク関連領域の摂動に敏感であることがわかった。
視覚的再構成に最適化された隠れ状態は、本質的に低レベルのアクション制御に有用な形で組織化されていない。
本稿では、中間映像拡散特徴と空間的コヒーレントなセマンティック表現を基礎視覚エンコーダから整列させることにより、世界アクションインタフェースを規則化するAction-Grounded Representation Alignmentの目的であるAGRAを提案する。
実世界の操作タスクにおけるAGRAの評価を行う。
実験により、AGRAは、アクションデコーダを適切な相互作用領域に集中させることで、オブジェクトのローカライゼーション精度と可視性理解を改善し、タスク非関連領域の摂動に対して、ポリシーをより堅牢にする。
その結果、AGRAは、ベースラインワールドアクションモデルに対して、分配性能と分配外一般化の両方を一貫して改善する。
関連論文リスト
- EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields [15.319293934673915]
本稿では,運動制御と視覚知覚のループを閉じるイベントウェア生成世界モデルEA-WMを提案する。
イベント認識型双方向核融合ブロックを導入し、クロスブランチの注意を変調し、オブジェクトの状態変化と正確な相互作用のダイナミクスを捉える。
EA-WMは最先端のパフォーマンスを達成し、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-05-07T13:06:19Z) - AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps [7.710034405765985]
AIMは、明示的な空間的インターフェースを通じてこのギャップを橋渡しする意図認識の統一世界行動モデルである。
事前訓練されたビデオ生成モデルに基づいて構築されたAIMは、共有変換器アーキテクチャ内の将来の観測と値マップを共同でモデル化する。
RoboTwin 2.0ベンチマークの実験では、AIMは平均94.0%の成功率に達し、以前の統合された世界行動ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-04-13T07:48:58Z) - SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation [43.77409401429281]
VLA(Vision-Language-Action)モデルは、ロボット制御の可能性を秘めているが、複雑な家庭環境におけるパフォーマンスは、まだ準最適である。
モバイル操作には、グローバルなシーンレイアウト、きめ細かい形状、高次元連続的な動作の推論が必要である。
知覚と表現を強化する空間的接地型VLAモデルの学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T03:44:25Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。