論文の概要: OmniV2X: A Generative Foundation Planner for Efficient End-to-End Cooperative Driving
- arxiv url: http://arxiv.org/abs/2606.21165v1
- Date: Fri, 19 Jun 2026 07:00:14 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:15:13.644963
- Title: OmniV2X: A Generative Foundation Planner for Efficient End-to-End Cooperative Driving
- Title(参考訳): OmniV2X: 効率的なエンドツーエンド協調運転のための生成ファウンデーションプランナ
- Authors: Juntong Peng, Juanwu Lu, Yupeng Zhou, Can Cui, Yaobin Chen, Ziran Wang,
- Abstract要約: 我々は、V2X(V2X)協調運転のための生成基盤モデルであるOmniV2Xを提案する。
このモデルは、マルチモーダルおよびマルチエージェント観測を含む独立したコンテキストシーケンスを直接解釈する。
- 参考スコア(独自算出の注目度): 14.897356806344696
- License:
- Abstract: We present OmniV2X, a generative foundation model for vehicle-to-everything (V2X) cooperative driving. The model directly interprets independent context sequences comprising multi-modal and multi-agent observations. The new design mitigates the computational cost of dense 3D perception, the vulnerability to data scarcity in cooperative scenarios, and the poor compliance with standardized messaging in existing methods that fuse multi-modal inputs into a shared representation. For training, we present an end-to-end supervised pipeline using a downstream trajectory generation loss, in which a high-capacity generative sequence planner implicitly learns to steer the model and leverage multi-modal inputs via cross-attention injection. As a foundation model, we demonstrate that OmniV2X pre-trained on large-scale single-agent planning datasets can efficiently adapt to cooperative environments by integrating the conditioning context with lightweight, standard-compliant V2X tokens. Evaluated on the DAIR-V2X-Seq dataset, OmniV2X outperforms existing end-to-end cooperative driving baselines, achieving state-of-the-art performance with less than 10% of the fine-tune V2X dataset and less than 1% of the communication bandwidth. We conduct comprehensive evaluations to demonstrate its computational efficiency and robustness under real-world constraints.
- Abstract(参考訳): 我々は、V2X(V2X)協調運転のための生成基盤モデルであるOmniV2Xを提案する。
このモデルは、マルチモーダルおよびマルチエージェント観測を含む独立したコンテキストシーケンスを直接解釈する。
この新しい設計は、高密度な3D知覚の計算コスト、協調シナリオにおけるデータ不足の脆弱性、マルチモーダル入力を共有表現に融合する既存の方法における標準化されたメッセージングへの不適合を緩和する。
トレーニングでは,高容量な生成シーケンスプランナが暗黙的にモデルを操縦し,マルチモーダルインプットをクロスアテンションインジェクションによって活用する,下流軌道生成損失を用いたエンドツーエンドの教師付きパイプラインを提案する。
基礎モデルとして,大規模単一エージェント計画データセット上で事前学習したOmniV2Xが,コンディショニングコンテキストを軽量で標準準拠のV2Xトークンと統合することにより,協調環境に効率的に適応できることを示す。
DAIR-V2X-Seqデータセットに基づいて評価されたOmniV2Xは、既存のエンドツーエンドの協調運転ベースラインを上回り、微細なV2Xデータセットの10%未満、通信帯域幅の1%未満で最先端のパフォーマンスを達成する。
本研究では,実世界の制約下での計算効率とロバスト性を示すため,包括的評価を行う。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - QuantV2X: A Fully Quantized Multi-Agent System for Cooperative Perception [47.35478308553379]
textbfQuantV2Xは、協調知覚の効率的な展開のための、最初の完全量子化されたマルチエージェントシステムである。
低ビットの制約の下で動作しているにもかかわらず、QuantV2Xは完全精度のシステムに匹敵する精度を達成している。
その結果,実世界展開のための完全量子化マルチエージェント中間核融合システムの実現可能性を強調した。
論文 参考訳(メタデータ) (2025-09-03T20:39:03Z) - CooPre: Cooperative Pretraining for V2X Cooperative Perception [47.00472259100765]
CooPreは、V2X協調知覚のための自己教師型学習フラムワークである。
異種V2Xエージェント間の3D特徴に効果的に注意を向けることのできる,V2Xバードアイビュー(BEV)ガイドマスキング戦略を開発した。
CooPreはV2X-Realデータセットで4%のmAP改善を実現し、トレーニングデータの50%しか使用せず、ベースラインのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2024-08-20T23:39:26Z) - Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-01T08:32:03Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - End-to-End Autonomous Driving through V2X Cooperation [23.44597411612664]
先駆的な協調自動運転フレームワークUniV2Xを紹介する。
UniV2Xは様々なビューにまたがるすべてのキー駆動モジュールをシームレスに統合ネットワークに統合する。
論文 参考訳(メタデータ) (2024-03-31T15:22:11Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。