論文の概要: Chains That See, Answers That Don't: A Multi-Aspect Evaluation Recipe for Forced Chain-of-Thought on Video-MME
- arxiv url: http://arxiv.org/abs/2606.22862v1
- Date: Mon, 22 Jun 2026 05:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:04:56.719981
- Title: Chains That See, Answers That Don't: A Multi-Aspect Evaluation Recipe for Forced Chain-of-Thought on Video-MME
- Title(参考訳): Video-MMEで結束する連鎖の多面的評価
- Authors: Zhichao Fan, Yanhang Li, Zexin Zhuang,
- Abstract要約: 強制チェーン・オブ・シント(CoT)は、ビデオ質問応答において視覚言語モデルをより信頼性の高いものにすることが広く考えられている。
そこで本研究では,その仮定を検証するための3段階評価法を提案する。
これはQwen2.5-VL / Video-MMEインスタンスを超えて一般化するわけではない。
- 参考スコア(独自算出の注目度): 0.30586855806896046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forced chain-of-thought (CoT) is widely assumed to make vision-language models more reliable on video question answering. We propose a small three-probe evaluation recipe to test that assumption: paired accuracy across direct, CoT, answer-first, and no-video conditions; a counterfactual video-swap diagnostic over the CoT chains; and a four-rung visual-degradation ladder. Each probe is reported under both a strict and a permissive regex scorer, with multiplicity correction over a manuscript-declared primary family. Applied to Qwen2.5-VL on Video-MME subsets, the recipe returns a two-part finding. The CoT chains are strongly video-conditioned: swapping the input video collapses chain overlap and flips most final letters, the opposite of what a "boilerplate-chain" null would predict. Yet on the same data, forced CoT does not improve MCQ accuracy, and on the smaller 7B model it produces a small but statistically supported drop under a post-hoc primary scorer choice. We do not claim this generalizes beyond the Qwen2.5-VL / Video-MME instantiation; the raw responses and a single recomputation script will be released with the supplementary material so every number can be re-derived.
- Abstract(参考訳): 強制連鎖思考(CoT)は、映像質問応答において視覚言語モデルをより信頼性の高いものにすることが広く考えられている。
提案手法は, 直接, CoT, 応答優先, 非映像条件のペア精度, CoT 鎖上のビデオスワップ診断, 4輪視覚劣化はしごの3段階評価法である。
各プローブは、厳密かつパーミッシブなregexスコアラーの両方の下で報告され、原稿宣言されたプライマリファミリーに対して多重性補正を行う。
Video-MMEサブセットのQwen2.5-VLに適用すると、レシピは2つの部分の発見を返す。
入力ビデオの交換はチェーンの重複を解消し、ほとんどの最終文字を反転させる。
しかし、同じデータでは、強制的なCoTはMCQの精度を向上せず、より小さな7Bモデルでは、ポストホックの一次スコアリング選択の下で小さいが統計的にサポートされているドロップを生成する。
Qwen2.5-VL / Video-MMEインスタンス化を超えてこれを一般化するとは言いません。
関連論文リスト
- Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling [32.50799160769865]
ビデオ報酬モデルは、さまざまなシナリオで人間の好みに合わせて正確な報酬を予測する必要がある。
textitDiscriminative RMs regress rewards direct on features by multimodal large language model without explicit reasoning。
トレーニング効率が高く一般化可能なビデオ報酬モデルであるDeScoreを紹介する。
論文 参考訳(メタデータ) (2026-05-07T09:30:58Z) - CCTVBench: Contrastive Consistency Traffic VideoQA Benchmark for Multimodal LLMs [43.70351207569419]
CCTVBenchは、実事故ビデオと世界モデル生成の逆ファクトリアルビデオを基に構築されたコントラストコントラストコントラストトラストトラヒックビデオQAベンチマークである。
CCTVBenchは、各ビデオ質問の4倍に1つの構造化された決定パターンを適用し、実行可能な診断を提供する。
C-TCDは、推論時にコントラスト入力として意味的に排他的なビデオを活用するコントラストデコーディング手法であり、インスタンスレベルのQAとコントラストの整合性を改善する。
論文 参考訳(メタデータ) (2026-04-22T11:39:02Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。
我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。
我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文 参考訳(メタデータ) (2025-05-01T17:41:49Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。