論文の概要: Counterfactual Reasoning for Fine-Grained Evidence Disentanglement in VideoQA
- arxiv url: http://arxiv.org/abs/2606.09181v1
- Date: Mon, 08 Jun 2026 08:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.827422
- Title: Counterfactual Reasoning for Fine-Grained Evidence Disentanglement in VideoQA
- Title(参考訳): ビデオQAにおける細粒度証拠の絡み合いの因果推論
- Authors: Zhou Du, Hamid Krim, Xiao Wu, Zhaoquan Yuan, Liangwei Li, Keisuke Fujii,
- Abstract要約: ビデオQAシステムは、答えに関連する因果関係の証拠よりも、急激な統計的相関に頼っていることが多い。
既存の方法は、相互モダリティの相関、コストがかかる訓練リソース、あるいは因果関係の仮定や制約に頼っている。
我々は,細粒度Evidence Disentanglement(CREDiT)のための非現実的推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.471093160007587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video multimodal models have significantly improved VideoQA performance. However, these systems often rely on spurious statistical correlations rather than answer-relevant causal evidence, resulting in unfaithful and brittle reasoning, especially in complex real-world scenarios. Existing methods either rely on cross-modality correlations, costly curated training resources, or insufficient causal assumptions and constraints, and typically operate at the time-interval level. As a result, they fail to explicitly disentangle causal visual cues from confounders and provide limited fine-grained evidence localization. To address this issue, we propose a Counterfactual Reasoning framework for fine-grained Evidence Disentanglement (CREDiT). CREDiT formulates the VideoQA process using a structural causal model and learns cross-modality representations that are explicitly decomposed into causal and non-causal components under independence and minimality constraints. To facilitate faithful disentanglement, we introduce feature-level causal interventions and construct counterfactual inputs that approximate causal effects while suppressing non-causal correlations. Extensive experiments on NExT-GQA, SportsQA, and SPORTU-video demonstrate that CREDiT consistently improves answer accuracy and reasoning reliability across both generic and complex sports scenarios, leading to more trustworthy VideoQA systems.
- Abstract(参考訳): ビデオマルチモーダルモデルの最近の進歩は、ビデオQAのパフォーマンスを著しく改善した。
しかしながら、これらのシステムは、答えに関連する因果関係の証拠よりも急激な統計的相関に頼り、特に複雑な実世界のシナリオにおいて、不誠実で不安定な推論をもたらす。
既存の手法は、相互モダリティの相関、費用がかかる訓練資源、因果関係の仮定や制約に頼り、典型的には時間間隔レベルで運用される。
結果として、彼らは共同設立者から因果的な視覚的手がかりを明示的に切り離すことに失敗し、限られたきめ細かい証拠のローカライゼーションを提供する。
この問題に対処するために,細粒度Evidence Disentanglement (CREDiT) のための反実的推論フレームワークを提案する。
CREDiTは、構造因果モデルを用いてビデオQAプロセスを定式化し、独立性と最小限の制約の下で、因果的および非因果的コンポーネントに明示的に分解された相互モダリティ表現を学習する。
本研究では, 因果関係を抑えつつ, 因果関係を近似する特徴レベルの因果的介入を導入し, 因果関係を抑えながら, 因果関係を近似する反事実的入力を構築する。
NExT-GQA, SportsQA, SPORTU-videoの大規模な実験により、CREDiTは一般的なスポーツシナリオと複雑なスポーツシナリオの両方において、応答精度と信頼性を一貫して改善し、より信頼性の高いビデオQAシステムを実現している。
関連論文リスト
- CaST-Bench: Benchmarking Causal Chain-Grounded Spatio-Temporal Reasoning for Video Question Answering [27.144152466342103]
映像の因果推論は視覚言語モデル(VLM)にとって重要な課題である
本稿では, Causal-Temporal Video Reasoning SST-BenchのベンチマークであるCaST-Benchを紹介する。
テンポラル・セグメントとバウンディングボックス・トラックをアノテートした2,066問の高品質なデータセットを1,015ビデオ上に構築する。
論文 参考訳(メタデータ) (2026-05-22T04:19:29Z) - Perception Without Engagement: Dissecting the Causal Discovery Deficit in LMMs [68.58207076756237]
本稿では,結果評価からメカニズム診断へ移行する摂動に基づく評価プロトコルProCauEvalを紹介する。
因果推論において,ビデオコンテンツは体系的に過小評価されている。
教師のネガティブなアライメントに基づく強化学習フレームワークであるADPOを提案する。
論文 参考訳(メタデータ) (2026-05-10T08:48:58Z) - Structured Causal Video Reasoning via Multi-Objective Alignment [102.61829546891543]
そこで本稿では,解析段階に先立って,構造化イベントファクト (Structured Event Facts) と命名した,健全なイベントとその因果関係のコンパクトな表現を提案する。
この構造化された事前は、簡潔で因果的根拠のある推論を促進するための明示的な制約として機能する。
我々はCausalFact-60Kと4段階のトレーニングパイプラインを紹介し、事実のアライメント、フォーマットのウォームスタート、思考のウォームスタート、強化学習に基づくポストトレーニングを含む。
論文 参考訳(メタデータ) (2026-04-06T04:49:30Z) - Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning [12.293826084601115]
スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。
異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。
マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
論文 参考訳(メタデータ) (2025-05-29T14:48:10Z) - Causality Model for Semantic Understanding on Videos [0.0]
この論文はセマンティックビデオ理解の領域に焦点を当てている。
VidVRD(Video Relation Detection)とVideoQA(Video Question Answering)の2つの基本的なタスクを前進させる因果モデリングの可能性を探る。
論文 参考訳(メタデータ) (2025-03-16T10:44:11Z) - Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。
そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。
実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文 参考訳(メタデータ) (2025-01-15T12:44:52Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。