論文の概要: Prisma-World: Camera-Controllable Multi-Agent Video World Model
- arxiv url: http://arxiv.org/abs/2606.09507v1
- Date: Mon, 08 Jun 2026 13:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.168218
- Title: Prisma-World: Camera-Controllable Multi-Agent Video World Model
- Title(参考訳): Prisma-World: カメラ制御可能なマルチエージェントビデオワールドモデル
- Authors: Huiqiang Sun, Zhan Peng, Size Wu, Kun Wang, Kang Liao, Dianyi Wang, Xingyu Zeng, Sheng Jin, Yangguang Li, Zhiguo Cao, Ziwei Liu, Wei Li,
- Abstract要約: カメラ制御可能なマルチエージェントワールドモデルであるPrisma-Worldを紹介する。
マルチエージェント生成を、クロスビュー整合性のためのジョイントジオメトリア・アウェア・デノナイジングプロセスとして定式化する。
実験により, フレキシブルエージェント数を持つ高忠実度マルチエージェント映像を, 1つのPrisma-Worldモデルで生成できることが確認された。
- 参考スコア(独自算出の注目度): 67.72842238020192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video world models have made rapid progress in generating controllable visual experiences, but most of them still simulate the world from a single observer. Extending such models to multiple agents raises a central challenge: if each agent's future state is generated independently, overlapping views may instantiate different versions of the same scene, leading to inconsistent objects, layouts, and appearances across agents. Conventional camera conditioning controls individual trajectories, but it does not explicitly couple the generation of views that should agree under shared scene geometry. We introduce Prisma-World, a camera-controllable multi-agent world model that formulates multi-agent generation as a joint geometry-aware denoising process for cross-view consistency. Prisma-World processes all agent videos within one full-attention sequence, uses a multi-agent RoPE design to distinguish agent identities while preserving synchronized temporal coordinates, and injects relative camera geometry into attention to bias overlapping viewpoints toward shared scene evidence. To further strengthen multi-view consistency and enhance global spatial perception, we augment our framework with an overlap-decaying curriculum training paradigm alongside minimap-conditioned structural guidance. To facilitate the training and evaluation of multi-agent models, we introduce PrismaDataset, a large-scale UE5 dataset with panoramic acquisition across diverse scenes, composable multi-agent view groups with flexible agent counts and complex camera trajectories, and precise camera/action annotations for consistency training and evaluation. Experiments show that a single Prisma-World model can generate high-fidelity multi-agent videos with flexible agent numbers, camera controllability, improved cross-view consistency, and spatial grounding under minimap guidance.
- Abstract(参考訳): ビデオワールドモデルは、制御可能な視覚体験を生成するために急速に進歩してきたが、その多くは依然として単一のオブザーバーから世界をシミュレートしている。
エージェントの将来の状態が独立して生成されると、重複したビューが同じシーンの異なるバージョンをインスタンス化し、一貫性のないオブジェクト、レイアウト、エージェント間の外観につながる可能性がある。
従来のカメラコンディショニングは、個々の軌跡を制御しているが、共有シーン幾何学の下で一致すべきビューを明示的に区別するものではない。
本稿では,カメラ制御可能なマルチエージェントワールドモデルであるPrisma-Worldを紹介する。
Prisma-Worldは、すべてのエージェントビデオを1つのフルアテンションシーケンス内で処理し、マルチエージェントのRoPE設計を使用して、同期された時間座標を保持しながらエージェントのアイデンティティを識別し、相対的なカメラ幾何学を、共有されたシーン証拠に対して重なり合う視点に注意に注入する。
マルチビューの一貫性をさらに強化し,グローバルな空間知覚を高めるために,ミニマップ条件による構造ガイダンスと並行して,重なり合ったカリキュラムトレーニングパラダイムを用いて,我々のフレームワークを増強する。
マルチエージェントモデルのトレーニングと評価を容易にするために,さまざまな場面でパノラマ取得が可能な大規模UE5データセットであるPrismaDataset,フレキシブルエージェント数と複雑なカメラ軌跡を持つ構成可能なマルチエージェントビューグループ,一貫性トレーニングと評価のための正確なカメラ/アクションアノテーションを紹介する。
実験により, フレキシブルエージェント数, カメラ制御性, クロスビューの整合性の改善, ミニマップ誘導下での空間接地による高忠実度マルチエージェントビデオを生成することができることがわかった。
関連論文リスト
- MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data [125.43597497646444]
MetaWorldは、マルチエージェントビデオワールドモデルをシングルビュービデオから直接オープンドメイン環境にスケールする新しいフレームワークである。
クロスビューの一貫性とアイデンティティの整合性を向上し、マルチエージェントビデオワールドモデリングのための高度にスケーラブルで物理駆動のパラダイムを確立する。
論文 参考訳(メタデータ) (2026-06-01T18:20:20Z) - V2XCrafter: Learning to Generate Driving Scene Across Agents [52.22336670088219]
協調運転システムは、運転安全性を高めるために、車両間通信(V2X)を利用して協調認識を行う。
エージェントのカメラビューにまたがって制御可能で現実的な協調運転シーンを生成するための最初のフレームワークであるV2XCrafterを提案する。
実験により,V2XCrafterはエージェント間の整合性を持った高忠実かつ制御可能なストリートビューを生成できることがわかった。
論文 参考訳(メタデータ) (2026-05-28T07:03:51Z) - Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players [87.87842088508553]
対話型シミュレーションのための生成的マルチエージェント世界モデルを提案する。
本モデルでは,映像の忠実度,アクション制御性,およびスロットベースおよび高密度アテンションベースライン上でのエージェント間整合性を改善する。
論文 参考訳(メタデータ) (2026-05-27T17:59:31Z) - CalibAnyView: Beyond Single-View Camera Calibration in the Wild [59.66873936532375]
カメラキャリブレーションは、信頼性の高い幾何学的知覚の基本的な前提条件である。
近年の学習に基づく手法では、単一ビューの校正には有望な結果が得られたが、本質的に複数のビューにまたがる幾何的整合性は無視されている。
任意の数の入力ビューをサポートする統一的な定式化であるCalibAnyViewを紹介します。
論文 参考訳(メタデータ) (2026-05-14T09:32:12Z) - MultiWorld: Scalable Multi-Agent Multi-View Video World Models [36.970254855945484]
マルチエージェント多視点世界モデリングのための統合フレームワークである textbfMultiWorld を提案する。
高精度なマルチエージェント制御を実現するためのマルチエージェント条件モジュールを提案する。
マルチプレイヤーゲーム環境とマルチロボット操作タスクの実験により、MultiWorldはビデオの忠実度、アクションフォロー能力、マルチビューの一貫性においてベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-04-20T17:52:15Z) - ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling [16.27470663877285]
本稿では,マルチエージェント共有ワールドモデリングを実現するビデオ生成フレームワークであるShareVerseについて述べる。
CARLAシミュレーションプラットフォーム上に,大規模インタラクティブな世界モデリングのためのデータセットを構築した。
本研究では,より広い環境をモデル化する独立エージェントの4視点映像の空間結合戦略を提案する。
我々は,エージェント間の空間的時間情報の対話的伝達を可能にする,事前訓練されたビデオモデルにエージェント間注意ブロックを組み込む。
論文 参考訳(メタデータ) (2026-03-03T07:41:12Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。