論文の概要: AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing
- arxiv url: http://arxiv.org/abs/2606.09811v1
- Date: Mon, 08 Jun 2026 17:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.675061
- Title: AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing
- Title(参考訳): AHA-WAM:観測誘導コンテキストルーティングを用いた非同期水平適応ワールド・アクション・モデリング
- Authors: Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang, Wenjie Xu, Yinan Mao, Weinan Zhang, Xiaokang Yang, Ru Ying, Ran Zheng, Yao Mu,
- Abstract要約: 本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築されたAHA-WAM(Asynchronous Horizon-Adaptive World-Action Model)を提案する。
AHA-WAMはロボットデータの事前学習なしに最先端のパフォーマンスを達成し、RoboTwinで平均92.80%、実世界の4つのタスクで78.3%の成功を達成した。
- 参考スコア(独自算出の注目度): 45.6226084109777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World-action models have emerged as a promising paradigm for robot manipulation, jointly modeling visual scene dynamics and actions to inject physical priors into policy learning. However, existing world-action models couple world prediction and action execution at the same temporal resolution, forcing the world branch to model near-term frame variations that are redundant and weakly informative. We posit that strictly binding world prediction and action execution to the same temporal rhythm may underutilize the potential of the video branch for embodied control. Therefore, we propose AHA-WAM, an Asynchronous Horizon-Adaptive World-Action Model built on a dual Diffusion Transformer (DiT) architecture that reorganizes world-action modeling around this temporal asymmetry. AHA-WAM instantiates the video DiT as a low-frequency world planner that maintains rolling key-value memory over past observations and exposes reusable layerwise latent context encoding long-horizon scene evolution, while a high-frequency action DiT executes short action chunks in closed loop by querying this context through layerwise joint attention. To support asynchronous execution, we introduce horizon-adaptive offset training and Observation-Guided Video-Context Routing (OVCR), which together let the action expert exploit long-horizon world context while remaining responsive to real-time execution state without rerunning the video DiT. Experiments on RoboTwin and real-world manipulation tasks show that AHA-WAM achieves state-of-the-art performance without any robot-data pretraining, attaining 92.80% average success on RoboTwin and 78.3% success across 4 real-world tasks, while reaching 24.17 Hz closed-loop control with a 4.59x speedup over Fast-WAM.
- Abstract(参考訳): 世界行動モデルは、ロボット操作のための有望なパラダイムとして登場し、視覚シーンのダイナミクスとアクションを共同でモデル化し、物理的な事前をポリシー学習に注入している。
しかし、既存の世界行動モデルは、同じ時間分解で世界予測と行動実行を組み合わせ、世界分岐は冗長で弱情報的な短期的フレーム変動をモデル化せざるを得ない。
我々は,世界予測と行動実行を同じ時間リズムに厳密に結び付けることで,映像分岐のポテンシャルを具体化制御に利用できないと仮定する。
そこで本稿では,この時相非対称性の周囲のワールド・アクション・モデリングを再編成するDiffusion Transformer (DiT) アーキテクチャ上に構築された非同期水平適応ワールド・アクション・モデルであるAHA-WAMを提案する。
AHA-WAMは、ビデオDiTを、過去の観測を通してキー値メモリをローリングする低周波ワールドプランナとしてインスタンス化し、ロングホライゾンシーンの進化を符号化した再利用可能なレイヤワイド潜在コンテキストを公開する一方、高周波アクションDiTは、このコンテキストを階層的な共同注意を通してクエリすることで、クローズドループ内のショートアクションチャンクを実行する。
非同期実行をサポートするために,水平方向適応型オフセットトレーニングと観測誘導型ビデオコンテキストルーティング(OVCR)を導入する。
RoboTwinと実世界の操作タスクの実験では、AHA-WAMはロボットデータの事前訓練なしに最先端のパフォーマンスを達成し、RoboTwinで平均92.80%、実世界の4つのタスクで78.3%成功し、Fast-WAMで4.59倍のスピードアップで24.17Hzのクローズドループ制御を達成した。
関連論文リスト
- RotVLA: Rotational Latent Action for Vision-Language-Action Model [54.22746299071677]
本稿では,連続的な回転潜在動作表現に基づくVLAフレームワークであるRotVLAを紹介する。
潜在作用はSO(n) の元としてモデル化され、連続性、構成性、および実世界の作用力学と整合した構造的幾何学を提供する。
RotVLAはVLMバックボーンとフローマッチングアクションヘッドで構成される。
論文 参考訳(メタデータ) (2026-05-13T11:58:02Z) - HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models [58.191567345416836]
世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
HarmoWAMは、予測と反応の制御を統一するために世界モデルを完全に活用し、一般的なトランジットと正確な操作を可能にする。
実世界の6つのロボットタスクにまたがる3つのトレーニング未確認テスト環境を構築し、背景、位置、オブジェクトの意味のバリエーションをカバーした。
論文 参考訳(メタデータ) (2026-05-11T17:59:56Z) - Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising [22.899605451385824]
我々は,リアルタイムなロボットアクションの実行と高忠実度4D世界合成(ビデオ+3D再構成)を単一のフレームワークで統合する,統一された4D世界モデルであるX-WAMを提案する。
X-WAMは、事前訓練されたビデオ拡散モデルの強い視覚的優位性を活用するために、マルチビューRGB-Dビデオを予測することによって未来を想像する。
非同期ノイズサンプリング(ANS)は、生成品質と動作復号効率を共同で最適化する。
論文 参考訳(メタデータ) (2026-04-29T14:01:54Z) - SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents [135.00390535239129]
本稿では,自己改善型計画および反復的行動世界モデリングフレームワークであるSPIRALを紹介する。
SPIRALはActWMをクローズドループシンク-アクト-リフレクションプロセスとして定式化し、そこで生成は明示的な計画とフィードバックの下で段階的に進行する。
複数のTI2Vバックボーンに対する実験は、ActWM-Benchとメインストリームのビデオ生成ベンチマークで一貫した利得を示している。
論文 参考訳(メタデータ) (2026-03-09T14:00:36Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis [32.08769443927576]
我々は、リアルタイム・リスク対応計画のためのデュアルシステム・ワールドモデルであるManipulate in Dream (MinD)を提案する。
MinDは2つの非同期拡散プロセスを使用する: 将来のシーンを予測する低周波ビジュアルジェネレータ(LoDiff)とアクションを出力する高周波拡散ポリシー(HiDiff)である。
私たちの重要な洞察は、ロボットポリシーが完全に認知されたフレームを必要とせず、単一の認知ステップで生成された低解像度の潜伏剤に頼ることができるということです。
MinDがRL-Benchで63%の成功率、実世界のFrankaタスクで60%、11.3FPSで稼働
論文 参考訳(メタデータ) (2025-06-23T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。