論文の概要: Intend, Reflect, Refine: An Adaptive Multimodal Reflection Framework for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.22913v1
- Date: Mon, 22 Jun 2026 06:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:39:01.9006
- Title: Intend, Reflect, Refine: An Adaptive Multimodal Reflection Framework for Autonomous Driving
- Title(参考訳): Intend, Reflect, Refine: 自律運転のための適応型マルチモーダルリフレクションフレームワーク
- Authors: Zisheng Chen, Yuping Qiu, Jianhua Han, Tao Tang, Xiuwei Chen, Likui Zhang, Ying-Cong Chen, Hang Xu, Xiaodan Liang,
- Abstract要約: 自律運転のための適応型マルチモーダルリフレクションフレームワークであるIRR-Driveを提案する。
IRR-Driveは明らかにシーンの進化を予測し、モデルは厳密な自己修正と初期意図の洗練を可能にした。
提案手法はPDMSとNAVSIMSのベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 79.71689985927625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-Language-Action (VLA) models have advanced end-to-end autonomous driving by incorporating reasoning for better interpretability and planning quality. However, most existing approaches directly generate the final trajectory without explicitly examining its future consequences, which limits their reliability in complex and dynamic environments. To address this limitation, we propose IRR-Drive (Intend, Reflect, Refine), an adaptive multimodal reflection framework for autonomous driving. Specifically, to tightly couple high-level reasoning with physical constraints, IRR-Drive first generates a preliminary textual intention and anticipates potential interactions by predicting future semantic bird's-eye view (BEV) representations. This dual-modality (Text + BEV) reflection space explicitly models anticipated scene evolution, enabling the model to rigorously self-correct and refine its initial intent before generating the final trajectory. Furthermore, to balance planning performance and computational efficiency, we construct reflection-oriented training data and design an adaptive reflection reward, enabling the model to adaptively select its reasoning mode according to scene complexity. Instead of using reasoning primarily as an auxiliary interpretation, IRR-Drive directly integrates an adaptive reflection mechanism into the planning framework, enabling grounded, decision-aware trajectory correction that is driven by scene complexity. Our method achieves state-of-the-art performance on the NAVSIM benchmark in both PDMS and EPDMS. Extensive experiments demonstrate the effectiveness of our multimodal reflection framework and validate the efficacy of the proposed adaptive reflection strategy.
- Abstract(参考訳): 近年のVision-Language-Action(VLA)モデルでは、より優れた解釈可能性と計画品質の推論を取り入れて、エンドツーエンドの自動運転が進歩している。
しかし、既存のほとんどのアプローチは、将来の結果を明確に調べることなく、最終的な軌道を直接生成し、複雑な環境や動的環境における信頼性を制限している。
この制限に対処するため、自律運転のための適応型マルチモーダルリフレクションフレームワークであるIRR-Drive(Intend, Reflect, Refine)を提案する。
具体的には、高レベルの推論を物理的制約と密に結合するために、IRR-Driveはまず予備的なテキスト意図を生成し、将来のセマンティック・バードズ・アイ・ビュー(BEV)表現を予測することによって潜在的な相互作用を予測する。
この双対モダリティ(Text + BEV)反射空間は、予想されるシーンの進化を明示的にモデル化し、最終的な軌道を生成する前に、モデルを厳密に自己修正し、その最初の意図を洗練することができる。
さらに、計画性能と計算効率のバランスをとるために、リフレクション指向のトレーニングデータを構築し、適応的なリフレクション報酬を設計し、シーンの複雑さに応じて推論モードを適応的に選択できるようにする。
推論を補助的な解釈として使用する代わりに、IRR-Driveは適応反射機構を直接計画フレームワークに統合し、シーンの複雑さによって引き起こされる、基底的かつ決定に敏感な軌道修正を可能にする。
本手法はPDMSとEPDMSの両方においてNAVSIMベンチマークの最先端性能を実現する。
提案手法の有効性を実証し, 適応反射法の有効性を検証した。
関連論文リスト
- Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - DRIVE: Dynamic Rule Inference and Verified Evaluation for Constraint-Aware Autonomous Driving [37.24058519921229]
本稿では,動的ルール推論と検証評価のための新しいフレームワークDRIVEを紹介する。
D DRIVEは、ソフト制約違反率0.0%、スムーズな軌道、様々な運転シナリオにおけるより強力な一般化を実現している。
検証された評価は、現実世界のデプロイメントにおけるフレームワークの効率性、説明可能性、堅牢性をさらに示す。
論文 参考訳(メタデータ) (2025-08-06T03:56:06Z) - VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。