論文の概要: Efficient-WAM: A 1B-Parameter World-Action Model with Low-Cost Future Imagination
- arxiv url: http://arxiv.org/abs/2606.10040v2
- Date: Wed, 10 Jun 2026 06:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:37.955359
- Title: Efficient-WAM: A 1B-Parameter World-Action Model with Low-Cost Future Imagination
- Title(参考訳): 高速WAM:低コスト将来イマジネーションによる1Bパラメータ世界反応モデル
- Authors: Jiajun Li, Tiecheng Guo, Yifan Ye, Rongyu Zhang, Xiaowei Chi, Qianpu Sun, Ying Li, Yunfan Lou, Yan Huang, Zhihe Lu, Meng Guo, Shanghang Zhang,
- Abstract要約: World-Action Models (WAM) は未来の視覚予測とアクション生成を結合する。
ほとんどの既存のWAMは将来の予測に依存しており、高い推論遅延を引き起こし、リアルタイムロボットのデプロイを困難にしている。
本稿では,その制御利益を保ちつつ,将来の想像力のコストを低減させるワールド・アクション・モデルであるEfficient-WAMを紹介する。
- 参考スコア(独自算出の注目度): 45.6948544726412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World-Action Models (WAMs) have emerged as a promising paradigm for embodied control by coupling future visual prediction with action generation. However, most existing WAMs rely on photorealistic future prediction, which incurs high inference latency and makes real-time robot deployment difficult. This motivates a more efficient WAM design that preserves the control benefits of future visual prediction while reducing its inference cost. We introduce Efficient-WAM, a World-Action Model that reduces the cost of future imagination while preserving its control benefit. Efficient-WAM improves inference efficiency via a compact video expert transferred from WAN-2.2-5B, token-sparse video latents, and asymmetric video-action denoising that allocates fewer sampling steps to video than to actions. Instead of optimizing the future branch for visual fidelity, Efficient-WAM treats future video prediction as a compact guidance signal for action generation. Comprehensive experiments on RoboTwin 2.0 and real-world manipulation tasks show that Efficient-WAM maintains strong action performance despite visibly coarse future predictions. While maintaining competitive control capabilities, our 1B-parameter model can reduce per-chunk latency to around 100 ms during physical deployment, achieving a 30x speedup over existing WAMs.
- Abstract(参考訳): World-Action Models (WAMs) は将来の視覚的予測と行動生成を結合することで制御を具現化するための有望なパラダイムとして登場した。
しかし、既存のWAMの多くは、高い推論遅延を発生させ、リアルタイムロボットの展開を困難にするフォトリアリスティックな未来予測に依存している。
これにより、予測コストを低減しつつ、将来の視覚的予測の制御の利点を保ちつつ、より効率的なWAM設計のモチベーションがもたらされる。
本稿では,その制御利益を保ちつつ,将来の想像力のコストを低減させるワールド・アクション・モデルであるEfficient-WAMを紹介する。
効率的なWAMは、WAN-2.2-5Bから転送されるコンパクトなビデオ専門家、トークンスパースなビデオラテント、およびアクションよりもビデオにサンプリングステップを割り当てる非対称なビデオアクションデノゲーションによる推論効率を改善する。
Efficient-WAMは、将来のブランチを視覚的忠実度に最適化する代わりに、将来のビデオ予測をアクション生成のためのコンパクトなガイダンス信号として扱う。
RoboTwin 2.0の総合的な実験と実世界の操作タスクにより、Efficient-WAMは、目に見えるほど粗い将来の予測にもかかわらず、強力な動作性能を維持していることが示された。
競合的な制御能力を維持しながら、我々の1Bパラメータモデルは、物理配置中にチャンク毎のレイテンシを約100ミリ秒に短縮し、既存のWAMよりも30倍のスピードアップを実現します。
関連論文リスト
- Light-WAM: Efficient World Action Models with State-Fusion Action Decoding [15.384126562001027]
Light-WAMは、効率的なロボット操作のための軽量なワールドアクションモデルである。
コンパクトなビデオバックボーンで構築され、ダウンサンプリングされた潜在空間で将来のビデオ監視を行う。
実験により、Light-WAMはLIBERO上で強力な性能を維持し、RoboTwin 2.0上で使用可能なマルチタスク性能を実現している。
論文 参考訳(メタデータ) (2026-06-06T15:58:12Z) - GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - FUTURE-VLA: Forecasting Unified Trajectories Under Real-time Execution [27.399648455932397]
FUTURE-VLAは、長期制御と将来の予測をモノリシックなシーケンス生成タスクとして再構成する統一アーキテクチャである。
FUTURE-VLAはLIBEROで99.2%、RoboTwinで75.4%、現実世界のPiperプラットフォームで78.0%の成功率を達成した。
論文 参考訳(メタデータ) (2026-02-05T14:27:43Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。