論文の概要: WAM4D: Fast 4D World Action Model via Spatial Register Tokens
- arxiv url: http://arxiv.org/abs/2606.14048v1
- Date: Fri, 12 Jun 2026 02:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.720984
- Title: WAM4D: Fast 4D World Action Model via Spatial Register Tokens
- Title(参考訳): WAM4D:空間登録トークンによる高速4Dワールドアクションモデル
- Authors: Ying Li, Xiaobao Wei, Jiajun Cao, Hao Wang, Xiaowei Chi, Chengyu Bai, Qianpu Sun, Jiajun Li, Xiaojie Zhang, Jian Tang, Sirui Han, Shanghang Zhang,
- Abstract要約: WAM4Dは,軽量空間レジスタトークンを用いた高速4次元世界アクションモデルである。
WAM4Dは空間的整合性を向上し,効率的な推論を維持しつつ,競争力のある動作予測を実現する。
- 参考スコア(独自算出の注目度): 52.16661403052964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World action models (WAMs) have recently shown promise in jointly modeling future observations and executable robot actions. However, most existing WAMs still operate in 2D video or latent spaces, where visually plausible rollouts miss the 3D spatial constraints and occluded contact geometry required for precise manipulation. While geometric foundation models offer strong priors for recovering dense 3D structure and motion from visual observations, forcing WAMs to predict the dense 4D representation introduces costly geometric decoding and slows down causal action generation. To address the trade-off, we present WAM4D, a fast 4D world action model that uses lightweight spatial register tokens as training-time future-depth readouts to transfer pretrained geometric priors into a causal video-action transformer, then removes the register branch for lightweight action inference. To prevent non-causal shortcuts, we further design causal mixture attention for the Mixture-of-Transformers (MoT) WAM backbone, defining modality-specific visibility among video, action, and geometry tokens. Comprehensive experiments on RoboTwin 2.0 and challenging real-world manipulation tasks show that WAM4D improves spatial consistency and achieves competitive action prediction while maintaining efficient inference.
- Abstract(参考訳): 世界行動モデル(WAM)は、最近、将来の観測と実行可能なロボットアクションを共同でモデル化する可能性を示している。
しかし、既存のWAMのほとんどは2Dビデオや潜伏空間で運用されており、視覚的にもっともらしいロールアウトは、3D空間の制約や正確な操作に必要な接触幾何学を欠いている。
幾何学的基礎モデルは、高密度な3次元構造と動きを視覚的観察から回復するための強い先行性を提供するが、WAMは高密度な4次元表現を予測せざるを得ず、コストのかかる幾何学的デコーディングを導入し、因果行動の発生を遅くする。
このトレードオフに対処するため、WAM4Dという高速な4次元世界アクションモデルを提案し、このモデルでは、軽量空間レジスタトークンをトレーニング時間として、事前学習した幾何学的先行情報を因果的ビデオアクション変換器に転送し、軽量なアクション推論のためにレジスタブランチを除去する。
非因果ショートカットを防止するため、ビデオ、アクション、幾何学トークン間のモダリティ特異的な可視性を定義し、Mixture-of-Transformers (MoT) WAMバックボーンの因果混合注意を更に設計する。
RoboTwin 2.0の総合的な実験と実世界の操作課題により、WAM4Dは空間的一貫性を改善し、効率的な推論を維持しながら競合する動作予測を実現する。
関連論文リスト
- StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation [6.0744834626758495]
StemVLAは、未来の3D空間知識と歴史的4D表現の両方をアクション予測に明示的に組み込む新しいフレームワークである。
我々は,CALVIN ABC-D ベンチマーク [46] において,StemVLA はタスクの長期化と最先端性能を著しく向上し,XXX の平均シーケンス長を達成できることを示した。
論文 参考訳(メタデータ) (2026-02-27T06:43:37Z) - MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation [27.70398018267795]
本研究は,幾何学的に一貫した任意のRGBD生成が可能な,新しい4次元世界モデルを提案する。
3つのデータセットの実験は、4Dシーン生成と下流操作の両方で強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2026-02-10T15:19:17Z) - Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis [53.48281548500864]
Motion 3-to-4は、単一のモノクロビデオから高品質な4Dダイナミックオブジェクトを合成するためのフィードフォワードフレームワークである。
我々のモデルは、コンパクトな動き潜在表現を学習し、フレーム単位の軌道を予測して、時間的コヒーレントな幾何である完全なロバスト性を取り戻す。
論文 参考訳(メタデータ) (2026-01-20T18:59:48Z) - Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation [54.81449795163812]
時間的コヒーレントなロボット操作のための4次元認識型汎用VLAモデルを開発した。
視覚的特徴を抽出し, 4次元埋め込みのための3次元位置への1次元時間埋め込みを行い, クロスアテンション機構による統一視覚表現に融合する。
この枠組みの中で、デザインされた視覚アクションは、空間的に滑らかで時間的に一貫したロボット操作を共同で行う。
論文 参考訳(メタデータ) (2025-11-21T12:26:30Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - 4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface [7.637832293935966]
観測されていないジオメトリの非剛体運動を推定する新しいデータ駆動アプローチである4DCompleteを紹介します。
ネットワークトレーニングのために,DeformingThings4Dという大規模合成データセットを構築した。
論文 参考訳(メタデータ) (2021-05-05T07:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。