論文の概要: Where Does the Answer Come From? Benchmarking View-Level Visual Evidence Identification in Multi-View MLLMs for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.09644v1
- Date: Mon, 08 Jun 2026 15:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.468499
- Title: Where Does the Answer Come From? Benchmarking View-Level Visual Evidence Identification in Multi-View MLLMs for Autonomous Driving
- Title(参考訳): 自動走行用多視点MLLMにおける視認性同定のベンチマーク
- Authors: Yimu Wang, Yee Man Choi, Barry Zhang, Mozhgan Nasr Azadani, Sean Sedwards, Krzysztof Czarnecki,
- Abstract要約: 本稿では,エビデンス・ソース識別評価のための多視点視覚質問応答ベンチマークを提案する。
ベンチマークには、73のシーンから122のコンフリクト中心の質問回答ペアが含まれている。
ビジュアルソースの識別を回答の正しさから明確に分離することで、ベンチマークは回答のみの評価が見逃す基礎的な失敗を露呈する。
- 参考スコア(独自算出の注目度): 12.905518450115906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) achieve strong results on visual reasoning benchmarks, but answer accuracy alone does not indicate whether a model relied on the correct visual evidence. This gap is particularly important in multi-view driving scenes used for autonomous driving, where a model can produce a plausible answer while grounding it in the wrong camera view. We introduce a multi-view visual question answering benchmark for evaluating evidence-source identification: given six synchronized NuScenes views and a question, the model must identify the supporting camera view and answer the question. The benchmark contains 122 conflict-centric question-answer pairs from 73 scenes, spanning causality, counterfactual reasoning, and intent prediction. View labels are proposed by an automatic conflict-mining pipeline and manually verified by annotators. We evaluate three settings: camera-view selection, oracle QA given the golden view, and joint prediction in which the model selects a view and answers in one pass. Answers are evaluated in both multiple-choice and free-form formats, using exact match for structured predictions and an LLM judge for free-form responses. By explicitly separating visual-source identification from answer correctness, the benchmark exposes grounding failures that answer-only evaluation misses.
- Abstract(参考訳): マルチモーダルな大言語モデル (MLLM) は視覚的推論のベンチマークで強い結果を得るが、答えの精度だけでは、モデルが正しい視覚的証拠に依存しているかどうかは示さない。
このギャップは、モデルが間違ったカメラビューに接地しながら、もっともらしい答えを生成できる、自律運転に使用される多視点運転シーンにおいて特に重要である。
6つの同期したNuScenesビューと1つの質問に対して、モデルがサポートカメラビューを識別し、その質問に答えなければならない。
このベンチマークには、73のシーンから122のコンフリクト中心の質問応答ペアが含まれており、因果関係、反ファクト推論、意図予測にまたがっている。
ビューラベルは自動コンフリクトマイニングパイプラインによって提案され、アノテーションによって手動で検証される。
カメラビュー選択、ゴールデンビューを与えられたオラクルQA、モデルが1回のパスでビューと回答を選択する共同予測の3つの設定を評価した。
回答は、構造化された予測の正確な一致と自由形式の応答のLLM判定を用いて、複数選択と自由形式の双方で評価される。
ビジュアルソースの識別を回答の正しさから明確に分離することで、ベンチマークは回答のみの評価が見逃す基礎的な失敗を露呈する。
関連論文リスト
- VisualFLIP: Do Predictions Depend on Task-Critical Visual Evidence in Multimodal Reasoning? [79.44137632338062]
マルチモーダルな大規模言語モデルが視覚的推論問題に正しく答える場合、その予測はタスククリティカルな視覚的証拠によって実際に支持されているか?
VisualFLIPは1,374枚の画像が基数,属性,空間,論理的タスクにまたがって同一の問合せペアとして配置されたベンチマークである。
ペアの両面を解く必要がある24個のMLLMと、少なくとも一方の面を解くモデルが両方の画像に対して同じ空でない答えを繰り返す頻度を測定するCR(Collapse Rate)を評価した。
論文 参考訳(メタデータ) (2026-06-05T22:06:07Z) - Benchmarking Deflection and Hallucination in Large Vision-Language Models [25.176271096443482]
既存のベンチマークでは、視覚的証拠とテキスト的証拠の衝突を見落としている。
多様なマルチモーダル検索設定にまたがる2,775個のサンプルのベンチマークであるVLM-DeflectionBenchを紹介する。
私たちの結果は、モデルが知っていることだけでなく、そうでないときにどのように振る舞うかを評価する必要性を強調します。
論文 参考訳(メタデータ) (2026-04-13T20:22:22Z) - Measuring Epistemic Humility in Multimodal Large Language Models [17.490955813494693]
HumbleBench は,MLLM が正解ではないが誤解を拒否する能力を評価するために設計された,新しい幻覚ベンチマークである。
我々は、微粒なシーングラフアノテーションを利用して、地中構造体と関係を抽出し、GPT-4-Turboに多重選択質問を生成する。
HumbleBenchは、現在の評価スイートにおける重要なギャップを埋め、安全クリティカルな設定におけるMLLMの信頼性をより現実的に測定する。
論文 参考訳(メタデータ) (2025-09-11T17:54:00Z) - MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。
我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。
我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文 参考訳(メタデータ) (2025-05-01T17:41:49Z) - From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment [51.3011761744484]
大規模言語モデルは単一の推論で有限フレームしか処理できない。
視覚的コンテキストサンプリングにより複数の予測を提案し,次に最終的な予測を選択するためのスコアリング機構を提案する。
実験により,この手法がビデオ質問の回答の正解を高い割合でカバーしていることが示されている。
論文 参考訳(メタデータ) (2025-03-26T11:53:03Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation [13.311411816150551]
2つの非常に類似した画像を一意に記述する能力により、MLLMが特定の視覚概念をいかによく理解するかを評価する。
D3ベンチマークの一部として247枚の非常に類似した画像ペアをキュレートする。
各画像対について、(1)特定の視覚的差を検知し、(2)目的画像を独自に記述し、(3)対象画像を障害者から識別する。
論文 参考訳(メタデータ) (2024-09-23T15:31:25Z) - Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。
後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。