論文の概要: When No Answer Is Correct: Diagnosing Absent Answer Detection for MLLMs in Video Understanding
- arxiv url: http://arxiv.org/abs/2606.08239v1
- Date: Sat, 06 Jun 2026 15:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.988492
- Title: When No Answer Is Correct: Diagnosing Absent Answer Detection for MLLMs in Video Understanding
- Title(参考訳): 答えが正しい場合:ビデオ理解におけるMLLMの絶対解答検出
- Authors: Yiheng Wang, Yueqian Lin, Lichen Zhu, Yudong Liu, Hai "Helen" Li, Yiran Chen,
- Abstract要約: ビデオ理解におけるマルチモーダル大言語モデル(MLLM)の欠解検出について検討した。
その結果,MLLMは解答の欠如を検知するよりも,圧倒的に多彩な解答者を選択することがわかった。
これらの結果から,無回答検出の体系的障害が明らかとなり,マルチモーダルシステムにおける明示的な検出機構の必要性が浮き彫りとなった。
- 参考スコア(独自算出の注目度): 14.452663025714811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have made substantial advancements in video understanding, yet the reliability of their responses remains underexplored. This work presents a diagnostic study of absent answer detection for MLLMs in video understanding, where the correct answer is deliberately excluded from the candidate set and a reliable model is expected to recognize that no valid option exists. We evaluate the absent answer detection behavior under three settings: multiple-choice questions augmented with an ``None of the Above'' option, open-ended generation with a detection instruction, and standard evaluation without any guidance. Across a diverse set of models and benchmarks, we find that MLLMs overwhelmingly select plausible distractors rather than detecting the absent answer. This failure is more pronounced in temporal reasoning tasks and worsens with denser frame sampling. We further explore chain-of-thought prompting as a mitigation strategy and find that while it substantially improves detection rates, performance remains unsatisfactory, suggesting that prompting-based strategies alone are insufficient to fully address this limitation. These findings expose a systematic failure in absent answer detection and highlight the need for explicit detection mechanisms in multimodal systems.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) はビデオ理解においてかなりの進歩を遂げてきたが、その応答の信頼性は未解明のままである。
本研究は,ビデオ理解におけるMLLMの欠解検出の診断研究であり,その正解は意図的に候補集合から除外され,信頼性の高いモデルが有効な選択肢がないことを認識することが期待されている。
我々は,「Above」オプションを付加した複数選択質問,検出命令付きオープンエンド生成,ガイダンスなしの標準評価の3つの設定の下で,欠落した回答検出行動を評価する。
モデルとベンチマークの多種多様なセットにおいて、MLLMは欠落した解を検出するのではなく、圧倒的に可視な散逸体を選択する。
この失敗は時間的推論タスクではより顕著であり、フレームサンプリングの密度が高くなると悪化する。
さらに、チェーン・オブ・プルーピングを緩和戦略として検討し、検出率を大幅に改善する一方で、パフォーマンスは不満足であり、この制限を完全に対処するには、プロンプトベースの戦略だけでは不十分であることを示唆する。
これらの結果から,無回答検出の体系的障害が明らかとなり,マルチモーダルシステムにおける明示的な検出機構の必要性が浮き彫りとなった。
関連論文リスト
- Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems [52.83669998269706]
テキストのみの設定で研究されてきたが、まだマルチモーダルに探索されていない。
現在のベンチマークでは、未解決性を無視するか、現実的な障害モードを見逃す粗末なメソッドに依存している。
MM-AQAは、2つの軸に沿った変換によって解答不能なインスタンスを解答可能なインスタンスから構築するベンチマークである。
論文 参考訳(メタデータ) (2026-04-16T09:23:22Z) - The Anatomy of Uncertainty in LLMs [10.50144444577399]
我々は、不確実性を3つの異なる意味的構成要素に分解する不確実性分解フレームワークを提唱する。
我々のフレームワークは、LSMの信頼性を監査し、幻覚を検知し、目標とする介入やより信頼できるシステムへの道を開くためのより良い理解を提供する。
論文 参考訳(メタデータ) (2026-03-26T02:59:40Z) - Hidden in Plain Sight: Reasoning in Underspecified and Misspecified Scenarios for Multimodal LLMs [28.913007638707427]
マルチモーダルな大規模言語モデル(MLLM)は、オープンエンドの現実世界の環境にますます多くデプロイされている。
本稿では,現在のMLLMが暗黙の推論シナリオをどのように扱うのかを体系的に分析する。
モデルは、必要な知覚と推論スキルを持っている場合でも、隠れた問題にしばしば遭遇しない。
論文 参考訳(メタデータ) (2025-05-30T21:47:28Z) - Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models [53.55128042938329]
Forensics-Benchは、新しい偽検出評価ベンチマークスイートである。
63,292件の厳密にキュレートされたマルチチョイスの視覚的質問からなり、112件の独特な偽造検出をカバーしている。
GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnetの22のオープンソースLVLMと3つのプロプライエタリモデルについて徹底的な評価を行った。
論文 参考訳(メタデータ) (2025-03-19T09:21:44Z) - Rethinking LLM Uncertainty: A Multi-Agent Approach to Estimating Black-Box Model Uncertainty [47.95943057892318]
ブラックボックスLSMの不確実性の定量化は、信頼性の高い応答とスケーラブルな監視に不可欠である。
本研究では,不確実性推定にマルチエージェント相互作用を用いた新しい理論的基礎手法であるDiverseAgentEntropyを紹介する。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。