論文の概要: WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.13672v2
- Date: Tue, 16 Jun 2026 20:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.102475
- Title: WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation
- Title(参考訳): WEAVER, Better, Fast, Longer: ロボットマニピュレーションのための効果的な世界モデル
- Authors: Arnav Kumar Jain, Yilin Wu, Jesse Farebrother, Gokul Swamy, Andrea Bajcsy,
- Abstract要約: WEAVER(World Estimation Across Views for Embodied Reasoning)は、3つのデシラタを同時に実現するWMアーキテクチャである。
WEAVERをロボットハードウェアに適用し、政策評価、政策改善、テストタイム計画においてその効果を実証する。
- 参考スコア(独自算出の注目度): 26.48387646424999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: $\textit{(i)}$ fidelity (i.e., producing simulated trajectories that correlate with reality), $\textit{(ii)}$ consistency (i.e., producing simulated trajectories that are coherent over long horizons), and $\textit{(iii)}$ efficiency (i.e., producing simulated trajectories quickly). We propose WEAVER (World Estimation Across Views for Embodied Reasoning): a WM architecture that simultaneously achieves all three desiderata, providing state-of-the-art results on robotic manipulation tasks. WEAVER is a multi-view WM trained to predict future latents and reward values via a flow-matching loss. We distill the key design decisions across model architecture, memory, and prediction objectives required to unlock the kinds of long-horizon dynamic manipulation tasks that have confounded prior world modeling approaches. We apply WEAVER in robotic hardware, demonstrating its effectiveness at policy evaluation ($ρ$=0.870 correlation with real-world success rate), policy improvement (real-world success rate improvement of $38\%$ on top of the $π_{0.5}$ robot foundation model), and test-time planning (real-world success rate improvement of $14\%$ with a $5-10\times$ speedup over prior WMs). WEAVER also demonstrates better performance than prior WMs when evaluated on out-of-distribution scenarios. Code, models, and videos at: https://arnavkj1995.github.io/WEAVER/ .
- Abstract(参考訳): ロボット工学における世界モデル(WM、すなわち学習シミュレータ)の潜在的な影響は、政策評価、政策改善、テストタイム計画など、いずれも現実世界の相互作用に限られている。
これらの下流機能をアンロックするには、WMは3つのdesiderataを共同で満たす必要がある。
(i)}$fidelity(つまり、現実と相関するシミュレートされた軌道を生成する)、$\textit{
(ii)}$ consistency(すなわち、長い地平線上でコヒーレントなシミュレートされた軌道を生成する)と$\textit{
(iii)=効率(即ち、シミュレートされた軌道を素早く生成する)
WEAVER(World Estimation Across Views for Embodied Reasoning):3つのデシラタを同時に実現し、ロボット操作タスクの最先端結果を提供するWMアーキテクチャを提案する。
WEAVERは、フローマッチング損失を通じて、将来の潜伏者や報酬値を予測するために訓練されたマルチビューWMである。
我々は,従来のモデリング手法を確立させた長軸動的操作タスクを解き放つために必要な,モデルアーキテクチャ,メモリ,予測目標にまたがる重要な設計決定を精査する。
We apply WEAVER in robotic hardware, showed its effective at policy evaluation (ρ$=0.870 correlation with real-world success rate), policy improvement (real-world success rate improve of $38\% $ on the $π_{0.5}$ robot foundation model), test-time planning (real-world success rate improve of $114\% with a 5-10\times$ speedup over the WMs。
WEAVERはまた、アウト・オブ・ディストリビューションのシナリオで評価した場合、以前のWMよりも優れたパフォーマンスを示す。
コード、モデル、ビデオ https://arnavkj1995.github.io/WEAVER/
関連論文リスト
- $τ_0$-WM: A Unified Video-Action World Model for Robotic Manipulation [45.040666672458634]
政策学習,映像予測,行動評価を統合した統合ビデオアクション世界モデルを提案する。
このモデルは、実際のロボット遠隔操作で約27,300ドル(約2万2000円)で訓練されている。
論文 参考訳(メタデータ) (2026-05-31T05:35:36Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - VectorWorld: Efficient Streaming World Model via Diffusion Flow on Vector Graphs [10.040683730802266]
本稿では,ego中心のベクターグラフタイルをロールアウト中に段階的に生成するストリーミングワールドモデルであるVectorWorldを提案する。
これは、モーションアウェアのゲートVAEを介してポリシー互換の相互作用状態を生成することで、履歴条件のポリシーと整合する。
solvrfreegated Diconditioned Training MeanFlow JVPを通じて、リアルタイムのアウトステップ補完をサポートする。
論文 参考訳(メタデータ) (2026-03-18T12:13:30Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning [25.65324419553667]
我々は,視覚的特徴と行動生成の統合を強化するために,階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$textbfTriply-Hierarchical Diffusion Policy(textbfH$mathbf3$DP)を紹介した。
大規模な実験では、H$3$DPは$mathbf+27.5%の平均相対的な改善を$mathbf44$のシミュレーションタスクで達成し、$mathbf4$の挑戦的な実世界の操作タスクで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-12T17:59:43Z) - Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。
Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。