論文の概要: PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.18375v2
- Date: Sat, 20 Jun 2026 17:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.681215
- Title: PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation
- Title(参考訳): PAIWorld:ロボットマニピュレーションのための3D一貫性のワールドファンデーションモデル
- Authors: Yuhang Huang, Xuan Lv, Junyan Xu, Zhiyuan Yu, Jiazhao Zhang, Ruizhen Hu, Wancheng Feng, Shilong Zou, Hewen Xiao, Ziqiao Zhou, Kaiyun Huang, Zhiyu Peng, Juzhan Xu, Hang Zhao, Chenyang Zhu, Renjiao Yi, Yifei Huang, Douhui Wu, Yan Zhang, Kexu Cheng, Chunhe Song, Yunzhi Xue, Xiuhong Zhang, Leitao Guo, Yunji Chen, Bin Wu, Haibin Yu, Kai Xu,
- Abstract要約: PAIWorldは3つのコアコンポーネントを通じて拡散変圧器の世界モデルを拡張するフレームワークである。
ロボットベンチマークで最先端のマルチビュー3D一貫性を実現し、WorldArenaのリーダーボードで1位、AgiBot-Challenge2026のリーダーボードで2位にランクインした。
- 参考スコア(独自算出の注目度): 51.385664546670284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World foundation models (WFMs) are powerful simulators, yet they predominantly operate in a single-view setting and lack the multi-view 3D consistency required for robotic manipulation. While robotic systems rely on multiple cameras (egocentric, eye-to-hand, and wrist-mounted) for policy learning, current multi-view world models simply concatenate view tokens without explicit geometric reasoning. This causes cross-view object drift, depth inconsistency, and texture misalignment. We trace these failures to two deficiencies: the absence of an explicit inter-view communication mechanism and the lack of a 3D geometric prior. We argue that resolving both simultaneously is necessary and sufficient. To address this, we present PAIWorld, a framework that augments diffusion-transformer world models via three core components: (1) Geometry-Aware Cross-View Attention blocks that establish an explicit pathway across views, (2) Geometric Rotary Position Embedding that encodes camera ray directions and extrinsic poses into the attention mechanism, and (3) Latent 3D-REPA, which distills 3D-aware features from frozen 3D foundation models to ensure 3D consistency. Built upon a DiT-based world foundation model, PAIWorld achieves state-of-the-art multi-view 3D consistency on robotic manipulation benchmarks, ranking 1st on the WorldArena leaderboard and 2nd on the AgiBot-Challenge2026 leaderboard, while enabling downstream applications such as model-based planning, world action models, and multi-view policy post-training.
- Abstract(参考訳): ワールドファウンデーションモデル(WFM)は強力なシミュレータであるが、主に単視点で運用され、ロボット操作に必要な多視点3D一貫性が欠如している。
ロボットシステムは、ポリシー学習に複数のカメラ(エゴセントリック、アイツーハンド、手首マウント)を頼っているが、現在のマルチビューワールドモデルは、明示的な幾何学的推論なしで単にビュートークンを結合している。
これは、クロスビューオブジェクトのドリフト、深さの不整合、テクスチャのミスアライメントを引き起こす。
我々はこれらの失敗を、2つの欠点、すなわち、明示的なビュー間通信機構の欠如と3次元幾何学的事前の欠如に追従する。
両方を同時に解決することは必要で十分である、と我々は主張する。
そこで本研究では,(1)視界を横断する明示的な経路を確立する幾何学的クロスビューアテンションブロック,(2)カメラ線方向と外在的なポーズを注意機構にエンコードする幾何学的回転位置埋め込み,(3)凍結した3次元基礎モデルから3次元特徴を抽出して3次元整合性を確保する潜在3D-REPA,の3つのコアコンポーネントを用いて拡散変換世界モデルを強化するフレームワークであるPAIWorldを提案する。
DiTベースのワールドファンデーションモデルに基づいて、PAIWorldは、ロボット操作ベンチマークにおける最先端のマルチビュー3D一貫性を実現し、WorldArenaのリーダーボードで1位、AgiBot-Challenge2026のリーダーボードで2位、モデルベースの計画、ワールドアクションモデル、マルチビューポリシーポストトレーニングのようなダウンストリームアプリケーションを可能にする。
関連論文リスト
- OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder [90.8453349494245]
本研究では,コヒーレントな3次元表現空間内で直接拡散を行うOneWorldを提案する。
OneWorldは、最先端の2Dベースの方法と比較して、クロスビューの一貫性に優れた高品質な3Dシーンを生成する。
論文 参考訳(メタデータ) (2026-03-17T03:43:37Z) - PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation [48.807071017228964]
我々は,3次元の点流として共有された3次元空間における状態と動作を統一する,大規模な事前学習型3次元世界モデルであるPointWorldを紹介した。
リアルタイム(0.1秒)の推論速度により、PointWorldは、操作のためのモデル予測制御(MPC)フレームワークに効率的に統合できる。
本研究では,実世界のフランカロボットが,物体の剛体押圧,変形,調音操作を行うことのできる1つの事前学習チェックポイントを実証した。
論文 参考訳(メタデータ) (2026-01-07T10:29:12Z) - FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction [13.098585993121722]
本稿では,FantasyWorldについて紹介する。FantasyWorldは,凍結動画基盤モデルをトレーニング可能な幾何学的ブランチで拡張する幾何学的拡張フレームワークである。
提案手法は,3次元予測を正規化するためのガイド映像生成とビデオ優先の手法であるクロスブランチ・インフォメーションを導入する。
実験により、FantasyWorldは映像の想像力と3D知覚を効果的に橋渡しし、近年の多視点コヒーレンスとスタイル整合性において、幾何学的に一貫性のあるベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-25T22:24:23Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。