論文の概要: Reasoning as Intersection: Consensus-Frame Alignment for Visual Focus in Video-MLLMs
- arxiv url: http://arxiv.org/abs/2606.18441v1
- Date: Tue, 16 Jun 2026 19:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.875985
- Title: Reasoning as Intersection: Consensus-Frame Alignment for Visual Focus in Video-MLLMs
- Title(参考訳): インターセクションとしての推論:ビデオMLLMにおける視覚的フォーカスのためのコンセンサスフレームアライメント
- Authors: Chengwen Liu, Zhe Huang, Jisheng Dang, Hong Peng, Qi Tian, Tat-Seng Chua,
- Abstract要約: 強化学習は、大規模言語モデルの推論能力を改善した。
結果のみの報酬をビデオマルチモーダルな大規模言語モデルに適用することは、どの視覚的証拠が答えを支持するべきかを限定的なガイダンスを提供する。
本稿では,エビデンス対応ビデオ推論のための時間アノテーションフリープロセスレベル報酬フレームワークであるConsensus Frame GRPOを紹介する。
- 参考スコア(独自算出の注目度): 81.04673240949074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has improved the reasoning ability of large language models, but applying outcome-only rewards to video multimodal large language models (Video-MLLMs) provides limited guidance on which visual evidence should support the answer. Inspired by multisensory integration, where consistent cues can enhance the salience and reliability of perceptual estimates, we introduce Consensus Frame GRPO (CF-GRPO), a temporal-annotation-free process-level reward framework for evidence-aware video reasoning. CF-GRPO constructs a consensus frame prior from intrinsic video cues, including temporal coverage, scene-transition cues, and query-conditioned visual relevance. It then computes a model-side frame-use score from visual and response representations and optimizes their agreement through the Consensus Frame Reward (CFR). With salience-aware sparse aggregation and distribution sharpening, CFR provides a high-contrast reward signal without requiring human temporal annotations. Experiments show that VideoCFR achieves competitive performance across complex video reasoning benchmarks and improves several metrics over representative Video-MLLM and RL baselines, while the consensus prior provides an interpretable view of the evidence frames emphasized during training. The implementation is available at https://github.com/1Pansy/VideoCFR.
- Abstract(参考訳): 強化学習は、大規模言語モデルの推論能力を向上させるが、結果のみの報酬をビデオマルチモーダル大言語モデル(ビデオMLLM)に適用することで、視覚的証拠がどの答えをサポートするべきかを限定的なガイダンスを提供する。
コンセンサスフレームGRPO(Consensus Frame GRPO, CF-GRPO)は, 時間的アノテーションのないプロセスレベルの報酬フレームワークである。
CF-GRPOは、時間的カバレッジ、シーン遷移キュー、クエリ条件付き視覚関連性を含む、本質的なビデオキューに先立ってコンセンサスフレームを構築する。
次に、視覚的および反応的表現からモデル側フレーム使用スコアを計算し、Consensus Frame Reward (CFR) を通じてそれらの合意を最適化する。
塩分を意識したスパースアグリゲーションと分布のシャープ化により、CFRは人間の時間的アノテーションを必要としない高いコントラスト報酬信号を提供する。
実験により、ビデオCFRは複雑なビデオ推論ベンチマーク間での競争性能を達成し、ビデオMLLMおよびRLベースラインよりもいくつかの指標を改善し、一方、コンセンサスはトレーニング中に強調されたエビデンスフレームの解釈可能なビューを提供する。
実装はhttps://github.com/1Pansy/VideoCFRで公開されている。
関連論文リスト
- SlowFocus: Enhancing Fine-grained Temporal Understanding in Video LLM [36.28285195488772]
大規模言語モデル(LLM)は、テキスト理解において例外的な能力を示した。
Vid-LLMは高品質なフレームレベルのセマンティック情報を同時に保持するのに苦労する。
この制限は、Vid-LLMの微細なビデオ理解への進歩を妨げる。
論文 参考訳(メタデータ) (2026-02-03T14:39:16Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。