論文の概要: DriveJudge: Rethinking Autonomous Driving Evaluation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.17362v1
- Date: Mon, 15 Jun 2026 23:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.175835
- Title: DriveJudge: Rethinking Autonomous Driving Evaluation with Vision-Language Models
- Title(参考訳): DriveJudge:ビジョンランゲージモデルによる自動運転評価の再考
- Authors: Xinglong Sun, Kevin Xie, Jenny Schmalfuss, Despoina Paschalidou, Xiuming Zhang, Sanja Fidler, Kashyap Chitta, Jose M. Alvarez,
- Abstract要約: DriveJudgeは、ルール付き評価とVision-Language Model (VLM)推論を組み合わせた運転評価エージェントである。
運転品質分類と軌道選択という2つのベンチマークタスクを導入する。
DriveJudgeは、21.23 AUCによる運転品質分類と、最近のVLMベースのDriveCriticによる軌道優先選択では6.5%の成績を示した。
- 参考スコア(独自算出の注目度): 53.73898294218455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving has shifted towards end-to-end policy learning, where reliable, interpretable policy evaluation is a fundamental challenge as driving quality is highly context-dependent. Commonly used rule-based driving metrics like EPDMS are interpretable but lack context-awareness, while recent VLMbased evaluations are context-aware but limited by ambiguous VLM outputs and weak physical grounding. To evaluate driving in a manner that is both interpretable and context-aware, we introduce DriveJudge. DriveJudge is a driving evaluation agent that combines rule-grounded evaluation with Vision-Language Model (VLM) reasoning and selectively invokes physically-grounded deterministic rule functions after interpreting the environmental context. To train and evaluate DriveJudge, we curate a large-scale dataset of 33,577 challenging driving samples with human annotations on whether the driving behavior is reasonable in the given scenario. With this dataset, we address the underexplored problem of driving metric evaluation, and introduce two human-aligned benchmark tasks: Driving Quality Classification and Trajectory Preference Selection. DriveJudge outperforms EPDMS for driving quality classification by 21.23 AUC, and the recent VLM-based DriveCritic for trajectory preference selection by 6.5%, setting a new standard for interpretable and precise driving evaluation.
- Abstract(参考訳): 自律運転はエンドツーエンドの政策学習へと移行し、信頼性があり、解釈可能な政策評価は、品質の駆動がコンテキストに依存しているため、根本的な課題である。
EPDMSのような一般的なルールベース駆動メトリクスは解釈可能であるが、文脈認識に欠けており、最近のVLMベースの評価は文脈認識であるが、曖昧なVLM出力と弱い物理グラウンドによって制限されている。
解釈可能かつコンテキスト対応の運転評価を行うため,DriveJudgeを紹介した。
DriveJudgeは、ルールグラウンド評価とビジョンランゲージモデル(VLM)推論を組み合わせて、環境コンテキストを解釈した後、物理的グラウンド決定論的ルール関数を選択的に呼び出す駆動評価エージェントである。
DriveJudgeをトレーニングし、評価するために、与えられたシナリオで運転行動が妥当かどうかについて、人間のアノテーションでサンプルを駆動することに挑戦する33,577の大規模なデータセットをキュレートする。
本データセットでは,測定基準評価を駆動する未検討の問題に対処し,運転品質分類と軌道優先選択という2つの人為的なベンチマークタスクを導入する。
DriveJudgeは、21.23 AUCによる運転品質分類のEPDMSと、最近のVLMベースのDriveCriticを6.5%向上させ、解釈可能かつ正確な運転評価のための新しい標準を設定した。
関連論文リスト
- Beyond Fixed Thresholds and Domain-Specific Benchmarks for Explainable Multi-Task Classification in Autonomous Vehicles [0.0]
シーン理解は、ディープラーニングモデルの使用を必要とする自律運転システムにおいて重要な部分である。
本稿では,各タスクに対する最適決定境界を特定するために,様々なしきい値を評価する信頼しきい値感度分析を導入する。
IUST-XAI-ADは、人間のアノテーションを付加した958枚の画像からなる新しいデータセットである。
論文 参考訳(メタデータ) (2026-05-05T21:07:11Z) - SteerVLA: Steering Vision-Language-Action Models in Long-Tail Driving Scenarios [104.10555123175055]
自律運転における基本的な課題は、ロングテールイベントに対する高レベルなセマンティック推論と、ロバストな運転のための低レベルでリアクティブな制御の統合である。
本稿では,視覚-言語-行動駆動ポリシーを操る細粒度言語命令を生成するSteerVLAを提案する。
我々は、SteerVLAを挑戦的なクローズドループベンチマークで評価し、運転スコア全体の4.77ポイント、ロングテールサブセットの8.04ポイントで最先端の手法より優れています。
論文 参考訳(メタデータ) (2026-02-09T09:54:02Z) - Measuring What Matters: Scenario-Driven Evaluation for Trajectory Predictors in Autonomous Driving [8.115144579497644]
本稿では,予測器の性能を精度と多様性の2次元で適応的に評価する包括的パイプラインを提案する。
実世界のデータセットを用いたクローズドループベンチマークの実験は、パイプラインが従来のメトリクスよりも合理的な評価を得られることを示している。
論文 参考訳(メタデータ) (2025-12-13T06:48:32Z) - DriveCritic: Towards Context-Aware, Human-Aligned Evaluation for Autonomous Driving with Vision-Language Models [24.168614747778538]
DriveCriticは、2つの重要なコントリビューションを特徴とする新しいフレームワークです。
データセットは、コンテキストが正しい判断に不可欠である、困難なシナリオのキュレートされたコレクションである。
DriveCriticモデルは、視覚的コンテキストとシンボル的コンテキストを統合することで、軌跡ペア間の調整を学ぶ。
論文 参考訳(メタデータ) (2025-10-15T03:00:38Z) - DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models [5.1501039725906885]
VLA(Vision-Language-Action)モデルには高度な自律運転があるが、既存のベンチマークにはシナリオの多様性、信頼性の高いアクションレベルのアノテーション、人間の好みに沿った評価プロトコルが欠けている。
我々は,2,610の駆動シナリオから生成された16,185のQAペアからなる,VLAモデル用に特別に設計された最初のアクション駆動ベンチマークであるDriveActionを紹介する。
我々の実験は、最先端の視覚言語モデル(VLM)が正確な行動予測に視覚と言語指導の両方を必要とすることを示した。
論文 参考訳(メタデータ) (2025-06-06T01:30:52Z) - PADriver: Towards Personalized Autonomous Driving [27.96579880234604]
パーソナライズされた自律運転のための新しいクローズドループフレームワークPADriverを提案する。
マルチモーダル大言語モデル(MLLM)に基づいて構築されたPADriverは、ストリーミングフレームとパーソナライズされたテキストプロンプトを入力として取り込む。
本研究では,ハイウェイ-Envシミュレータに基づくPAD-Highwayというベンチマークを構築し,交通ルールの下での判定性能を総合的に評価する。
論文 参考訳(メタデータ) (2025-05-08T13:36:07Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving [81.04174379726251]
本稿では,DriveCoTというエンド・ツー・エンドの運転データセットを総合的に収集する。
センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。
我々は,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。
論文 参考訳(メタデータ) (2024-03-25T17:59:01Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。