論文の概要: OmniDrive: An LLM-Choreographed Multi-Agent World Model with Unified Latent Co-Compression for Multi-View Driving Video Generation
- arxiv url: http://arxiv.org/abs/2606.17536v1
- Date: Tue, 16 Jun 2026 05:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.287358
- Title: OmniDrive: An LLM-Choreographed Multi-Agent World Model with Unified Latent Co-Compression for Multi-View Driving Video Generation
- Title(参考訳): OmniDrive:マルチビュー駆動ビデオ生成のための統合潜在コ圧縮によるLLM-Choreographed Multi-Agent World Model
- Authors: Zijie Meng, Yufei Liu, Chengqian Ma, Zhiyu Li, Jiyuan Liu, Wenhua Nie, Bingcai Wei, Shuqin Chen, Weichen Xu, Jiquan Yuan, Miao Zhang,
- Abstract要約: DRIVE-CHOREOは、制御可能なマルチビュービデオ生成を潜在コレオグラフィとして再放送する。
NUScenesでは、DRIVE-CHOREOが新しい最先端のマルチビュー一貫性と競合するFVD (45.7) を備えたBEV mAP (21.6) を設定します。
- 参考スコア(独自算出の注目度): 23.42968075775045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative world models for autonomous driving face two unresolved tensions: heterogeneous control injection, where free-form language, HD-maps, trajectories, and camera poses reside in incompatible representational spaces, and post-hoc cross-view fusion, where per-camera latents fail to encode global 3-D geometry. We trace both to a single root cause: the absence of a shared symbolic interlingua aligning language, geometry, and pixels at the latent-token level. We present DRIVE-CHOREO, an LLM-choreographed multi-agent world model that recasts controllable multi-view video generation as latent choreography. Three Qwen2.5-VL agents - a Director parsing user intent into a structured WorldScript, a Cartographer grounding it into spatially-anchored layout tokens, and an Auditor feeding cross-view critiques back as auxiliary supervision - jointly author a single position-aware token sequence. This sequence is co-compressed with the multi-view video via a view-time permutation that enforces inter-camera geometry within the convolutional receptive field of a 3-D VAE. On nuScenes, DRIVE-CHOREO sets new state-of-the-art multi-view consistency and BEV mAP (21.6) with competitive FVD (45.7); a detector trained purely on our synthetic data gains +2.4 NDS on the real validation split, validating downstream utility.
- Abstract(参考訳): 自律運転のための生成的世界モデルは、自由形式言語、HDマップ、軌跡、カメラのポーズが互換性のない表現空間に存在する異種制御注入(英語版)と、カメラごとのラプタントがグローバルな3次元幾何学を符号化できないポストホックなクロスビュー融合(英語版)の2つの未解決の緊張に直面している。
我々はどちらも一つの根本原因に辿り着く: 言語、幾何学、ピクセルを潜在トークンレベルで共有するシンボリックインターリングアが存在しないこと。
LLM-choreographed multi-agent world model, DRIVE-CHOREOについて述べる。
3つのQwen2.5-VLエージェント - ユーザ意図を構造化されたWorldScriptにパースするディレクタ、それを空間的にアンコールされたレイアウトトークンにグラウンドするCartographer、補助的なインシデントとしてクロスビューの批評を返送するAuditor、そして単一の位置認識トークンシーケンスを共同で作成する。
このシーケンスは、3次元VAEの畳み込み受容領域内でカメラ間幾何学を強制するビュータイムの置換によって、マルチビュービデオと共圧縮される。
NUScenesでは、DRIVE-CHOREOが新しい最先端のマルチビュー一貫性と競合するFVD (45.7) を備えたBEV mAP (21.6) を設定します。
関連論文リスト
- Prisma-World: Camera-Controllable Multi-Agent Video World Model [67.72842238020192]
カメラ制御可能なマルチエージェントワールドモデルであるPrisma-Worldを紹介する。
マルチエージェント生成を、クロスビュー整合性のためのジョイントジオメトリア・アウェア・デノナイジングプロセスとして定式化する。
実験により, フレキシブルエージェント数を持つ高忠実度マルチエージェント映像を, 1つのPrisma-Worldモデルで生成できることが確認された。
論文 参考訳(メタデータ) (2026-06-08T13:59:50Z) - MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data [125.43597497646444]
MetaWorldは、マルチエージェントビデオワールドモデルをシングルビュービデオから直接オープンドメイン環境にスケールする新しいフレームワークである。
クロスビューの一貫性とアイデンティティの整合性を向上し、マルチエージェントビデオワールドモデリングのための高度にスケーラブルで物理駆動のパラダイムを確立する。
論文 参考訳(メタデータ) (2026-06-01T18:20:20Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - DCDM: Divide-and-Conquer Diffusion Models for Consistency-Preserving Video Generation [77.89090846233906]
我々はDivide-and-Conquer Diffusion Model (DCDM)と呼ばれるシステムレベルのフレームワークを提案する。
DCDMは、統合されたビデオ生成バックボーンを共有しながら、ビデオ一貫性モデリングを3つの専用コンポーネントに分解する。
我々は,AAAI'26におけるCVMコンペティションのテストセットにおけるフレームワークの検証を行い,提案手法がこれらの課題に効果的に対処できることを実証した。
論文 参考訳(メタデータ) (2026-02-14T07:02:36Z) - Unified Camera Positional Encoding for Controlled Video Generation [48.5789182990001]
トランスフォーマーは、3D知覚、ビデオ生成、自律運転のための世界モデル、そしてAIを具体化するための普遍的なバックボーンとして登場した。
本稿では、6-DoFポーズ、内在性、レンズ歪みを含む完全なカメラ情報を統一する幾何学一貫性表現であるRelative Rayを紹介する。
システム的なトレーニングと評価を容易にするため,広い範囲のカメラモーションとレンズタイプをカバーする大規模なビデオデータセットを構築した。
論文 参考訳(メタデータ) (2025-12-08T07:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。