論文の概要: EV-WM: Event-Verified World Models for Long-Horizon Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.13053v2
- Date: Mon, 15 Jun 2026 03:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:04.897558
- Title: EV-WM: Event-Verified World Models for Long-Horizon Robotic Manipulation
- Title(参考訳): EV-WM:長距離ロボットマニピュレーションのためのイベント検証世界モデル
- Authors: Kailin Wang, Haoxiang Jie, Yaoyuan Yan, Jiacheng Zhou, Zhiyou Heng,
- Abstract要約: ロングホライゾン操作は、関係性、述語レベル、物理的に接地された進行信号を必要とする。
我々は,ワールド・モデル・プランニングのための述語型検証フレームワークである textbfEV-WM を紹介する。
- 参考スコア(独自算出の注目度): 0.815557531820863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained-feature world models provide a useful substrate for robot imagination, but visual or latent prediction alone does not determine whether an imagined future satisfies task-relevant predicates. Long-horizon manipulation requires progress signals that are relational, predicate-level, and physically grounded: whether an object has moved, whether a drawer or contact state has changed, whether a placement predicate is satisfied, and whether a candidate future is reliable enough for execution. We introduce \textbf{EV-WM}, a predicate-grounded verification framework for world-model planning. EV-WM rolls out candidate futures in pretrained visual-feature space, decodes them into structured event states, and scores them using task-progress, semantic-consistency, physical-feasibility, and uncertainty terms. The verifier guides sampling-based planning, gates candidate actions, and, in the contact-sensitive LIBERO wine-rack setting, selects among PPO-generated proposals. Across navigation, deformable-object, wall-constrained, and language-described manipulation studies, EV-WM shows that predicate-grounded verification can make feature-space world-model planning more interpretable and better aligned with task progress.
- Abstract(参考訳): 事前訓練された世界モデルは、ロボットの想像に有用な基盤を提供するが、視覚的または潜在的な予測だけでは、想像された未来がタスク関連述語を満たすかどうかを判断しない。
ロングホライズン操作には、関係性、述語レベル、物理的に接地された進行信号(物体が移動したか、引き手か接触状態が変化したか、配置述語が満たされたか、候補となる未来が実行に十分信頼できるか)が必要である。
本稿では,ワールド・モデル・プランニングのための述語型検証フレームワークである \textbf{EV-WM} を紹介する。
EV-WMは、事前訓練された視覚的特徴空間の候補未来をロールアウトし、それらを構造化されたイベント状態にデコードし、タスクプログレッシブ、セマンティック一貫性、物理的実現可能性、不確実性条件を用いてスコア付けする。
検証者は、サンプリングベースプランニング、ゲート候補動作、接触感応性LIBEROワインラック設定において、PPO生成提案の中から選択する。
EV-WMは、ナビゲーション、変形可能なオブジェクト、壁の制約、言語による操作の研究を通じて、述語による検証によって、機能空間のワールドモデルプランニングをより解釈可能で、タスクの進捗に整合性を持たせることができることを示した。
関連論文リスト
- STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System [76.3920413336862]
シミュレーション可能なテーブルトップシーン生成に適したセマンティックスと物理の二重システムであるSTABLEを提案する。
STABLEはセマンティック共振器と物理共振器の2つの相補的なモジュールで構成されている。
実験により、STABLEはタスク命令に厳密に準拠するシミュレーション可能なテーブルトップシーンを生成することができた。
論文 参考訳(メタデータ) (2026-05-15T16:18:42Z) - OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation [55.56490813640669]
VLAモデルは典型的には現在のフレームにのみ作用するが、将来の予測とオブジェクト認識推論は別々の潜在空間でしばしば学習される。
本稿では,時間的フォアシークエンスとオブジェクト認識推論を共通化することで,制約に対処するフレームワークOFlowを提案する。
提案手法は, 時間的フローマッチングを用いて将来の潜伏者を予測し, 物理的に関係のある手がかりを強調するオブジェクト認識表現に分解する。
論文 参考訳(メタデータ) (2026-04-20T06:38:01Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - I-Perceive: A Foundation Model for Active Perception with Language Instructions [41.67607728608853]
I-Perceiveは,自然言語命令に基づく能動的知覚の基礎モデルである。
I-Perceiveは、画像ベースのシーンコンテキストに基づいて、オープンな言語命令に従うカメラビューを予測する。
実験により、I-Perceiveは、生成したカメラビューの予測精度とインストラクションの両方において、最先端のVLMを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-28T11:38:56Z) - SAGE: Scalable Agentic 3D Scene Generation for Embodied AI [67.43935343696982]
既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが特定した具体的タスクを与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,大規模にシミュレーション可能な環境を自動的に生成する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - A Framework for Task and Motion Planning based on Expanding AND/OR Graphs [3.1486269481946754]
タスク・アンド・モーション・プランニング(TMP)は、自律的なサービス、表面操作、さらには軌道上でのミッションにおいて重要である。
本稿では、TMP-EAOGと呼ばれる拡張AND/ORグラフに基づくTMPフレームワークを導入し、異なるシナリオへの適応性を実証する。
論文 参考訳(メタデータ) (2025-08-30T02:28:25Z) - VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。
既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。
VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-08-06T03:07:05Z) - EASE: Embodied Active Event Perception via Self-Supervised Energy Minimization [6.249768559720122]
アクティブイベント認識は、人間とAIのコラボレーション、補助ロボット工学、自律ナビゲーションといったタスクにおいて、インテリジェンスを具現化する上で不可欠である。
本稿では,自由エネルギーによる表現学習と具体化制御を一体化する自己教師型フレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2025-06-20T23:45:51Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。