論文の概要: $ω$-EVA: Envision, Verify, and Act with Latent Interactive World Models
- arxiv url: http://arxiv.org/abs/2606.09457v1
- Date: Mon, 08 Jun 2026 13:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.081517
- Title: $ω$-EVA: Envision, Verify, and Act with Latent Interactive World Models
- Title(参考訳): $ω$-EVA: 潜在対話型世界モデルによる構想、検証、行為
- Authors: Zhenguo Sun, Yu Sun, Hande Huang, Alois Knoll,
- Abstract要約: 身体的な政策は通常、現在の観察結果を行動に直接マッピングし、候補者行動の結果を暗黙的に残す。
動作生成のためのエンビジョン-検証-Actループを実現する潜在対話型世界モデルである$-EVAを紹介する。
その3段階のフレームワークは、アクション条件付き潜在力学を学び、言語条件付きフローポリシーを訓練し、世界モデルを通じてポリシーの提案をフィードバックする。
- 参考スコア(独自算出の注目度): 28.544954130906135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Embodied policies typically map current observations directly to actions, leaving candidate-action consequences implicit. World models provide predictive supervision, representations, or external simulation, but rarely let a policy inspect the imagined consequence of its own proposal before acting. We introduce $ω$-EVA, a latent interactive world model that realizes an Envision--Verify--Act loop for embodied action generation. Its three-stage framework learns action-conditioned latent dynamics, trains a language-conditioned flow policy on dynamics-aware visual representations, and feeds the policy's proposal back through the world model. A tri-branch refiner jointly reasons over the current state, proposal-conditioned future, and proposed action to produce the final action chunk. Because consequence reasoning remains in latent feature space, $ω$-EVA avoids generating future videos at inference. Evaluations across diverse single-arm, bimanual, long-horizon, and perturbed simulation settings show that the complete interaction pipeline consistently improves the proposal policy, while latent diagnostics indicate meaningful action-conditioned future structure. With approximately 1.2B parameters and no additional robot-data pretraining, $ω$-EVA demonstrates a compact and competitive performance--scale--data trade-off, making the world model an active action-feedback module rather than a passive predictor.
- Abstract(参考訳): 身体的な政策は通常、現在の観察結果を行動に直接マッピングし、候補者行動の結果を暗黙的に残す。
世界モデルは予測的な監督、表現、または外部シミュレーションを提供するが、政策が行動する前に独自の提案の想像上の結果を調べることは滅多にない。
動作生成のためのエンビジョン-検証--Actループを実現する潜在対話型世界モデルである$ω$-EVAを紹介する。
その3段階のフレームワークは、動作条件付き潜在ダイナミクスを学び、動的に認識された視覚表現に言語条件付きフローポリシーを訓練し、世界モデルを通じてポリシーの提案をフィードバックする。
トリブランチ精錬機は, 現状, 提案条件付き将来, 最終アクションチャンクを生成するためのアクションを共同で検討した。
そのため、$ω$-EVAは推論時に将来のビデオを生成するのを避けることができる。
多様な単腕、双極性、長距離、摂動シミュレーション設定による評価は、完全な相互作用パイプラインが提案ポリシーを一貫して改善し、潜在診断は意味のある行動条件の将来の構造を示すことを示している。
約1.2Bのパラメータと追加のロボットデータ事前トレーニングなしで、$ω$-EVAはコンパクトで競争力のあるパフォーマンス-スケール-データのトレードオフを示し、世界モデルは受動的予測器ではなくアクティブなアクションフィードバックモジュールとなる。
関連論文リスト
- From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。
我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-12T14:15:16Z) - AGWM: Affordance-Grounded World Models for Environments with Compositional Prerequisites [18.635313325437664]
我々は,行動の動的実行可能性を明確に追跡するために,前提条件依存のDAGとして表される抽象的な空き構造を学習するAGWM(Affordance-Grounded World Model)を提案する。
ゲームベースのシミュレーション環境の実験では、より低いマルチステップ予測誤差、新しい構成へのより良い一般化、解釈可能性の向上により、本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-05-07T18:46:44Z) - Being-H0.7: A Latent World-Action Model from Egocentric Videos [32.77431338471086]
我々は、VLAスタイルのポリシーに未来を意識した推論をもたらす潜在的世界行動モデルであるBeing-H0.7を提案する。
being-H0.7は、知覚と行動の間の学習可能な遅延クエリを、コンパクトな推論インターフェイスとして挿入する。
論文 参考訳(メタデータ) (2026-04-30T14:16:15Z) - World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。