論文の概要: IOI: Decoupling Kinematics and Physics for Interactive World Models
- arxiv url: http://arxiv.org/abs/2606.23296v1
- Date: Mon, 22 Jun 2026 13:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:44:18.775606
- Title: IOI: Decoupling Kinematics and Physics for Interactive World Models
- Title(参考訳): IOI:対話型世界モデルのためのキネマティクスと物理の分離
- Authors: Chengyu Bai, Peidong Jia, Tiecheng Guo, Yukai Wang, Rui Ma, Fangyuan Zhao, Chunkai Fan, Xiaobao Wei, Jintao Chen, Hao Wang, Ying Li, Xiaozhu Ju, Jian Tang, Shanghang Zhang,
- Abstract要約: 我々は,キネマティクスと学習物理力学を統合したハイブリッド対話型世界モデルIOIを提案する。
IOIは、運動軌跡を正確に計算するための明示的なキネマティックガイダンス、キネマティックスシーケンスを導入している。
RoboTwinベンチマークの実験は、キネマティックな忠実さ、アウト・オブ・ディストリビューション、およびポリシー評価を越えてIOIを検証する。
- 参考スコア(独自算出の注目度): 46.3330122411516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing generalist embodied agents requires interactive environments providing visually realistic feedback and accurate action-conditioned dynamics. Interactive world models address this by simulating such complex dynamics. However, purely data-driven methods struggle to ensure precise control alignment and physically plausible visual feedback due to a lack of explicit structural constraints. To address this, we propose IOI, a hybrid interactive world model integrating analytical kinematic priors with learned physical dynamics. Unlike data-driven approaches prone to spatiotemporal drift, IOI introduces explicit kinematic guidance, computing forward kinematics from action sequences for accurate motion trajectories. These trajectories are rendered into synchronized front, side, and top orthographic projections, eliminating the need for extrinsic camera calibration. A Multi-view Kinematic Aggregation and Injection module fuses these geometric cues and injects them into the video generator, providing geometry-consistent guidance. Conditioning video generation on these deterministic trajectories establishes a synergy between the analytical simulator and the world model. Decoupling deterministic motion into the kinematic prior frees the generator to model stochastic physical interactions. Experiments on the RoboTwin benchmark validate IOI across kinematic fidelity, out-of-distribution (OOD) generalization, and policy evaluation. IOI achieves state-of-the-art simulation performance and robust zero-shot generalization to unseen OOD tasks. Furthermore, IOI serves as a reliable policy evaluator, yielding success rates closely aligning with ground-truth physics simulators. On real-world platforms, policies trained on IOI-synthesized data match those trained on teleoperation demonstrations, solidifying its practical value for embodied policy learning.
- Abstract(参考訳): 汎用的なエンボディエージェントの開発には、視覚的にリアルなフィードバックと正確な動作条件のダイナミクスを提供する対話環境が必要である。
インタラクティブな世界モデルは、このような複雑な力学をシミュレートすることでこの問題に対処する。
しかし、純粋にデータ駆動手法は、明確な構造的制約が欠如しているため、正確な制御アライメントと物理的に妥当な視覚フィードバックを確保するのに苦労する。
そこで本研究では,解析的キネマティック先行と学習物理力学を融合した対話型世界モデルIOIを提案する。
データ駆動型アプローチは時空間ドリフトの傾向が強いのとは異なり、IOIは運動の正確な軌跡に対するアクションシーケンスから運動の前方運動学を演算する明示的なキネマティックガイダンスを導入している。
これらのトラジェクトリは、同期された前面、側面、および上部の正射影にレンダリングされ、外部カメラキャリブレーションの必要がなくなる。
Multi-view Kinematic Aggregation and Injectionモジュールはこれらの幾何学的手がかりを融合させ、ビデオジェネレータに注入し、幾何学的に一貫性のあるガイダンスを提供する。
これらの決定論的軌道上の条件付きビデオ生成は、解析シミュレータと世界モデルとの相乗関係を確立する。
決定論的運動をキネマティックな先行運動に分解することで、生成元は確率的物理的相互作用をモデル化する。
RoboTwinベンチマークの実験は、動画像の忠実度、配布外一般化(OOD)、およびポリシー評価にまたがるIOIを検証する。
IOIは、未確認のOODタスクに対して、最先端のシミュレーション性能と堅牢なゼロショット一般化を実現する。
さらに、IOIは信頼性の高い政策評価器として機能し、地上の物理シミュレータと密に一致した成功率を得る。
現実世界のプラットフォームでは、IOI合成データに基づいてトレーニングされたポリシーは、遠隔操作のデモでトレーニングされたポリシーと一致し、その実践的な価値を具体化している。
関連論文リスト
- Direct Dynamic Retargeting for Humanoid Imitation Learning from Videos [6.238518905285812]
単眼ビデオデモからの模倣学習は、ヒューマノイドロボットに複雑なスキルを教えるためのスケーラブルなアプローチを提供する。
本稿では,エキスパートビデオから直接高忠実で動的に実現可能な軌道を生成する新しい単一ステージフレームワークであるDirect Dynamic Retargeting (DDR)を提案する。
我々の実験は、幾何学的バイアスをバイパスすることで、DDRはデモ追跡精度において最先端のベースラインを上回ることを実証した。
論文 参考訳(メタデータ) (2026-05-22T15:33:40Z) - ACWM-Phys: Investigating Generalized Physical Interaction in Action-Conditioned Video World Models [30.527810700174488]
行動条件付き世界モデル(ACWM)は,映像の予測と意思決定に強く期待されている。
本稿では,多様な物理力学下での行動条件予測のための新しいベンチマークであるACWM-Physを紹介する。
論文 参考訳(メタデータ) (2026-05-09T00:00:47Z) - EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields [15.319293934673915]
本稿では,運動制御と視覚知覚のループを閉じるイベントウェア生成世界モデルEA-WMを提案する。
イベント認識型双方向核融合ブロックを導入し、クロスブランチの注意を変調し、オブジェクトの状態変化と正確な相互作用のダイナミクスを捉える。
EA-WMは最先端のパフォーマンスを達成し、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-05-07T13:06:19Z) - Contact-Aware Neural Dynamics [42.83872574010789]
本研究では,シミュレータのダイナミクスと接触情報との整合性を学習する暗黙のsim-to-realフレームワークを提案する。
本研究では,ロボットハンドの触覚接触情報を用いることで,接触に富む作業に係わる非滑らかな不連続性を効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2026-01-19T07:56:13Z) - Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation [88.83749146867665]
既存のアプローチは、遠く離れた次のベストなエンドエフェクタのポーズを予測するポリシーを学びます。
すると、運動に対する対応する関節回転角を逆運動学を用いて計算する。
本稿では,Kinematics 拡張空間テンポアル gRaph diffuser を提案する。
論文 参考訳(メタデータ) (2025-03-13T17:48:35Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。