論文の概要: UniDrive: A Unified Vision-Language and Grounding Framework for Interpretable Risk Understanding in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.24759v1
- Date: Tue, 23 Jun 2026 16:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.05027
- Title: UniDrive: A Unified Vision-Language and Grounding Framework for Interpretable Risk Understanding in Autonomous Driving
- Title(参考訳): UniDrive: 自律運転におけるリスク理解のための統合ビジョンランゲージとグラウンドフレームワーク
- Authors: Xiaowei Gao, Pengxiang Li, Yitai Cheng, Ruihan Xu, James Haworth, Stephen Law, Yun Ye,
- Abstract要約: 本稿では,自律運転におけるリスク理解のための統合型視覚言語と接地フレームワークを提案する。
UniDriveは、多フレーム視覚入力からシーンダイナミクスをモデル化する時間的推論ブランチと高解像度の知覚ブランチを組み合わせる。
実験の結果、UniDriveはキャプションとリスクオブジェクトのグラウンドの両方において、画像ベースとビデオベースのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 9.909436526872133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) have shown strong potential for autonomous driving scene understanding, yet existing methods still face a fundamental trade-off between temporal reasoning and spatial precision. Models that rely on single-frame or low-resolution inputs often miss small, distant, or partially occluded hazards, while language-centric driving models frequently provide limited grounded evidence for their explanations. To address this gap, we propose UniDrive, a unified visual-language and grounding framework for interpretable risk understanding in autonomous driving. UniDrive combines a temporal reasoning branch that models scene dynamics from multi-frame visual input with a high-resolution perception branch that preserves fine-grained spatial details from the latest frame. The two branches are integrated through a gated cross-attention fusion module, enabling dynamic context to be aligned with precise spatial evidence. Based on the fused representation, UniDrive jointly generates natural-language risk descriptions and grounded bounding-box outputs for risk objects. Experiments on the DRAMA-Reasoning benchmark show that UniDrive outperforms representative image-based and video-based baselines in both captioning and risk-object grounding. In particular, UniDrive achieves the best overall performance on the validation split and demonstrates clear advantages in small-object localization, zero-shot generalization to NuScenes and BDD100K, and human-rated interpretability and trustworthiness. These results suggest that explicitly combining temporal semantics and high-resolution perception provides a stronger foundation for interpretable and safety-oriented autonomous driving systems. The code is available at https://github.com/pixeli99/unidrive-dev.
- Abstract(参考訳): 最近のマルチモーダル大規模言語モデル(MLLM)は、自律走行シーン理解の強力な可能性を示しているが、既存の手法は、時間的推論と空間的精度の基本的なトレードオフに直面している。
単一フレームや低解像度の入力に依存するモデルは、小さな、遠く、あるいは部分的に隠されたハザードを見逃すことが多い。
このギャップに対処するため,自律運転におけるリスク理解のための統合視覚言語と接地フレームワークUniDriveを提案する。
UniDriveは、マルチフレームの視覚入力からシーンのダイナミクスをモデル化する時間的推論ブランチと、最新のフレームからきめ細かい空間的詳細を保存する高解像度の知覚ブランチを組み合わせる。
この2つの分岐はゲート型クロスアテンション融合モジュールを通して統合され、動的コンテキストを正確な空間的証拠と整合させることができる。
融合表現に基づいて、UniDriveは自然言語によるリスク記述と、リスクオブジェクトに対する接地されたバウンディングボックス出力を共同で生成する。
DRAMA-Reasoningベンチマークの実験では、UniDriveはキャプションとリスクオブジェクトのグラウンドの両方において、イメージベースおよびビデオベースラインよりも優れていた。
特に、UniDriveはバリデーション分割における最高の全体的なパフォーマンスを達成し、小さなオブジェクトのローカライゼーション、NuScenesとBDD100Kへのゼロショットの一般化、人間レベルの解釈可能性と信頼性において明確なメリットを示している。
これらの結果は、時間的意味論と高分解能知覚を明示的に組み合わせることで、解釈可能かつ安全指向の自律運転システムのためのより強力な基盤となることを示唆している。
コードはhttps://github.com/pixeli99/unidrive-devで入手できる。
関連論文リスト
- OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - LMGenDrive: Bridging Multimodal Understanding and Generative World Modeling for End-to-End Driving [60.31765454895336]
本稿では、マルチモーダル理解と生成世界モデルを組み合わせた、エンドツーエンドのクローズドループ駆動のための最初のフレームワークLMGenDriveを紹介する。
本稿では,視覚前訓練から多段階長距離運転に至るまでの3段階訓練戦略を提案し,安定性と性能の向上を図る。
論文 参考訳(メタデータ) (2026-04-09T19:13:14Z) - UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving [48.461267171124945]
自動運転のためのUnified Driving Vision-Language-ActionモデルであるUniDriveVLAを提案する。
理解、シーン認識、行動計画の3つの専門家で構成されており、マスク付き共同注意を通して調整されている。
nuScenesのオープンループ評価とBench2Driveのクローズループ評価における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-02T15:48:45Z) - LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers [15.4994260281059]
低レベルの空間計画から高レベルの意図を遠ざける生成フレームワークであるLAD-Driveを紹介する。
LAD-Driveは確率的メタアクション分布を推測するためにアクションデコーダを使用し、通常1ホットの符号化で失われるニュアンスドインテントを保存する明示的な信念状態を確立する。
LangAutoベンチマークの大規模な評価は、LAD-Driveが最先端の結果を達成し、ドライビングスコアの競争ベースラインを最大59%上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-02T16:21:42Z) - InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation [53.47253633654885]
InstaDriveは、2つの重要な進歩を通じてビデオリアリズムを促進する新しいフレームワークである。
これらのインスタンス認識機構を組み込むことで、InstaDriveは最先端のビデオ生成品質を実現する。
私たちのプロジェクトページはhttps://shanpoyang654.io/InstaDrive/page.htmlです。
論文 参考訳(メタデータ) (2026-02-03T08:22:13Z) - Think Before You Drive: World Model-Inspired Multimodal Grounding for Autonomous Vehicles [34.698147360764104]
ThinkDeeperは、決定を下す前に将来の空間状態を説明するフレームワークである。
Talk2Carのリーダーボードで1位にランクインし、DrivePilot、MoCAD、RefCOCO/+/gベンチマークで最先端のベースラインを上回っている。
さらに、ADにおけるマルチソースVGデータセットであるDrivePilotを紹介し、Retrieval-Augmented Generation (RAG)とChain-of-Thoughtパイプラインによって生成されるセマンティックアノテーションを特徴とする。
論文 参考訳(メタデータ) (2025-12-03T05:14:16Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。