論文の概要: EG-VQA: Benchmarking Verifiable Video Question Answering with Grounded Temporal Evidence
- arxiv url: http://arxiv.org/abs/2606.24797v1
- Date: Tue, 23 Jun 2026 16:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.095245
- Title: EG-VQA: Benchmarking Verifiable Video Question Answering with Grounded Temporal Evidence
- Title(参考訳): EG-VQA:グラウンドドテンポラルエビデンスによる検証可能なビデオ質問回答のベンチマーク
- Authors: Linpeng Huang, Weixing Chen, Zexin Chen, Yang Liu, Liang Lin,
- Abstract要約: 本稿では,Evidence-Grounded Video Question Answering Benchmark (EG-VQA)を紹介する。
EG-VQAは2,067本の動画と11,838本のQAペアで構成されている。
強力なプロプライエタリモデルでさえ、予測を正確に下ろすのに苦労しています。
我々は,明示的な監督によって訓練されたエビデンス基底推論モデルEG-Reasonerを提案する。
- 参考スコア(独自算出の注目度): 48.314554375516366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Video Large Language Models (Video-LLMs) have yielded promising performance on video question answering (VideoQA). Nevertheless, existing benchmarks are predominantly evaluated through answer correctness, while the grounding of predictions in relevant video evidence remains largely unexamined. This disconnect between answer generation and evidence understanding motivates the construction of the Evidence-Grounded Video Question Answering Benchmark (EG-VQA), an open-ended evaluation protocol in which each QA pair is explicitly annotated with supporting temporal evidence, thereby requiring joint reasoning and precise evidence localization. EG-VQA is comprised of 2,067 videos and 11,838 QA pairs with fine-grained evidence annotations. To evaluate predicted evidence, Evidence-Grounded F1 (EG-F1) is introduced as a unified metric in which temporal alignment and semantic consistency against ground-truth evidence are jointly measured. Experimental evaluation reveals that even strong proprietary models struggle to accurately ground their predictions, exposing a fundamental discrepancy between answer correctness and faithful evidence localization. To bridge this gap, EG-Reasoner, an evidence-grounded reasoning model trained with explicit supervision, is proposed. State-of-the-art performance is achieved among open-source models, with results competitive against proprietary systems, particularly pronounced gains are observed on reasoning-intensive tasks such as counterfactual questions. These findings demonstrate that scaling alone is insufficient for robust video understanding and that structured evidence supervision is essential for the development of more reliable and interpretable VideoQA systems.
- Abstract(参考訳): ビデオ大言語モデル(Video-LLMs)の最近の進歩は、ビデオ質問応答(VideoQA)において有望なパフォーマンスをもたらしている。
それでも、既存のベンチマークは回答の正しさによって主に評価されるが、関連するビデオ証拠の予測の根拠は、ほとんど検討されていない。
この回答生成と証拠理解の切り離しは、各QAペアに時間的証拠を明示的に注釈付けしたオープンエンド評価プロトコルであるEvidence-Grounded Video Question Answering Benchmark(EG-VQA)の構築を動機としている。
EG-VQAは2,067本の動画と11,838本のQAペアで構成されている。
Evidence-Grounded F1 (EG-F1) は, 予測された証拠を評価するために, 時間的アライメントと接地的証拠に対する意味的一貫性を同時測定する統合計量法として導入された。
実験的な評価によると、強力なプロプライエタリモデルでさえ予測を正確に下ろすのに苦労しており、答えの正しさと忠実な証拠のローカライゼーションの根本的な相違が明らかになっている。
このギャップを埋めるために、明示的な監督で訓練されたエビデンス基底推論モデルEG-Reasonerを提案する。
最先端のパフォーマンスはオープンソースモデルの間で達成され、プロプライエタリなシステムと競合する結果が得られ、特に反事実問題のような推論集約的なタスクにおいて顕著な利得が観察される。
これらの結果から, ビデオ理解の堅牢化にはスケーリングだけでは不十分であり, より信頼性が高く解釈可能なビデオQAシステムの開発には, 構造化されたエビデンス監視が不可欠であることが示唆された。
関連論文リスト
- Counterfactual Reasoning for Fine-Grained Evidence Disentanglement in VideoQA [16.471093160007587]
ビデオQAシステムは、答えに関連する因果関係の証拠よりも、急激な統計的相関に頼っていることが多い。
既存の方法は、相互モダリティの相関、コストがかかる訓練リソース、あるいは因果関係の仮定や制約に頼っている。
我々は,細粒度Evidence Disentanglement(CREDiT)のための非現実的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-08T08:20:42Z) - Foresee-to-Ground: From Predictive Temporal Perception to Evidence-Driven Reasoning for Video Temporal Grounding [86.37002814396674]
ビデオ時間グラウンドのためのフォアシー・ツー・グラウンド(F2G)を提案する。
F2Gは予測的時間知覚とエビデンス駆動推論を統合している。
さまざまなベンチマークでグラウンド化の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2026-05-21T04:03:25Z) - VISTAQA: Benchmarking Joint Visual Question Answering and Pixel-Level Evidence [26.0945130521806]
既存のベンチマークでは、テキストによる回答の正当性または画素レベルのローカライゼーションを分離して評価している。
本稿では,視覚的質問応答に基づく自由形式の回答正当性と画素レベルの証拠を共同評価するためのベンチマークであるVISTAQAを紹介する。
GROVEは, テキストの精度と接地品質を, サンプルごとの幾何平均で組み合わせることで, 関節の正しさを強制する指標である。
論文 参考訳(メタデータ) (2026-05-20T03:44:06Z) - VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification [73.02304272829785]
VideoBenchは、証拠を厳格に検証する長ビデオ応答のための階層的なベンチマークだ。
これは、13のドメインに500の注釈付き質問を手動で記述し、時間間隔と空間境界ボックスを組み合わせて証拠とする。
GeminiPro-3-Proでさえ、標準のエンドツーエンドのQA設定で17%未満の質問に正しく答えている。
その結果,表面レベルでの回答の正しさと真正な証拠に基づく推論との間に大きなギャップが生じた。
論文 参考訳(メタデータ) (2026-04-02T03:29:43Z) - Stateful Evidence-Driven Retrieval-Augmented Generation with Iterative Reasoning [7.701766930531068]
Stateful Evidence-Driven RAG with Iterative Reasoningは、質問応答をプログレッシブなエビデンス蓄積プロセスとしてモデル化するフレームワークである。
このフレームワークは、ギャップと競合を特定するためにエビデンス駆動の欠陥分析を行い、クエリを反復的に洗練し、その後の検索をガイドする。
複数の質問応答ベンチマークの実験では、標準的なRAGとマルチステップベースラインよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-03-25T06:57:49Z) - Process-of-Thought Reasoning for Videos [33.74677144833003]
Process-of-Thought (PoT) Reasoning for Videosは、ビデオ推論を軽量で検証可能なステップのシーケンスに構造化することで、推論プロセスを明確にするフレームワークである。
PoT は (i) 時間的エビデンス選択、 (ii) ステップワイズ状態更新、 (iii) 制限された応答合成をインターリーブし、ビデオエビデンスのトレーサビリティを維持しながら仮説を段階的に洗練することを可能にする。
論文 参考訳(メタデータ) (2026-02-07T20:25:46Z) - Video Evidence to Reasoning Efficient Video Understanding via Explicit Evidence Grounding [1.4582793306013615]
Chain of Evidence (CoE)は、アーキテクチャ的に分離し、基礎と推論の効率を最適化する新しいフレームワークである。
CoEは,(1)クエリ誘導フィルタとして機能する軽量エビデンス・グラウンドリング・モジュール(EGM)と(2)強化学習により最適化されたエビデンス・アンチョリング・プロトコルの2つのコアイノベーションを取り入れている。
論文 参考訳(メタデータ) (2026-01-12T17:46:10Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。
モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。
本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T06:30:02Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。