論文の概要: See More, Think Deeper: Query-Expanded Visual Evidence and Answer-Clue Guided Reflection for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2606.09064v1
- Date: Mon, 08 Jun 2026 06:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.723263
- Title: See More, Think Deeper: Query-Expanded Visual Evidence and Answer-Clue Guided Reflection for Long Video Understanding
- Title(参考訳): より深く考える - クエリの拡張されたビジュアルエビデンスと、長いビデオ理解のためのガイド付きリフレクション
- Authors: Shuning Wang, Zhiheng Wu, YiNuo Lu, Naiming Liu, Chen Jia, Bowen Liu, Shuo Nie, Weijie Zhu, Yumeng Zhang,
- Abstract要約: CoVERは、クエリ拡張された視覚的エビデンスを動的に収集することで、Video-LLMsにTextbfSee Moreを可能にする。
実験結果から,CoVER-7Bはパラメータスケールが同じモデルよりもかなり優れており,特定の指標上での最先端のクローズドソースモデルを超えていることが判明した。
- 参考スコア(独自算出の注目度): 13.259795610663394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Video Large Language Models (Video-LLMs) have enabled performance on long-video understanding tasks. However, existing methods still face two key limitations: evidence acquisition often relies on a single search intent, and answer generation lacks an effective visual feedback mechanism. To address these limitations, we propose \textbf{CoVER}, a Comprehensive Visual Evidence and Reflection framework for long-video understanding. CoVER enables Video-LLMs to \textbf{See More} by dynamically gathering query-expanded visual evidence, and \textbf{Think Deeper} by verifying draft answers with effective answer-specific visual feedback. Together, these mechanisms shift long-video understanding from answer-centric generation to evidence-centric and visually verifiable reasoning. Experimental results show that CoVER-7B substantially outperforms models with the same parameter scale and even surpasses state-of-the-art closed-source models on certain metrics.
- Abstract(参考訳): ビデオ大言語モデル(Video-LLMs)の最近の進歩により、長時間ビデオ理解タスクのパフォーマンスが向上した。
しかし、既存の手法は2つの重要な制限に直面している。エビデンス獲得はしばしば単一の検索意図に依存しており、回答生成には効果的な視覚的フィードバック機構が欠けている。
これらの制約に対処するため,長時間ビデオ理解のための包括的ビジュアルエビデンス・リフレクションフレームワークである「textbf{CoVER}」を提案する。
CoVERは、クエリ拡張された視覚的エビデンスを動的に収集することで、ビデオ-LLMを \textbf{See More} と、効果的な回答固有の視覚的フィードバックで、ドラフト回答を検証することで、 \textbf{Think Deeper} とすることができる。
これらのメカニズムは、長いビデオの理解を回答中心の世代からエビデンス中心の、そして視覚的に検証可能な推論へとシフトさせる。
実験結果から,CoVER-7Bはパラメータスケールが同じモデルよりもかなり優れており,特定の指標上での最先端のクローズドソースモデルを超えていることがわかった。
関連論文リスト
- Semantic and Visual Evidence for Efficient Long-Video Reasoning: A Solution for the HD-EPIC VQA Challenge [9.253622130813044]
本稿では,長期ビデオ推論を2つの相補的な証拠(意味的証拠と視覚的証拠)に分解する統合的枠組みを提案する。
本研究は,意味的および視覚的証拠を明示的に構造化し,検索し,統合することが,MLLMによる映像の理解に重要であることを示す。
論文 参考訳(メタデータ) (2026-05-28T05:53:34Z) - Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning [14.945921705882725]
この研究はMLLMビデオ理解における知覚と世代間のギャップを埋め、ビデオQAアプリケーションのための解釈可能で忠実な推論パラダイムを提供する。
階層的人間の視覚認知に着想を得たClueNetを提案する。
論文 参考訳(メタデータ) (2026-03-16T09:15:12Z) - REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding [23.684146245231457]
ロングフォームビデオ理解には、よりリッチでダイナミックな視覚入力が含まれる。
純粋にテキストベースのリフレクションメカニズムは、クロスモーダルなインタラクション機能を欠いている。
ツール拡張マルチモーダルリフレクションのための新しいフレームワークであるREVISORを提案する。
論文 参考訳(メタデータ) (2025-11-17T06:25:12Z) - When Thinking Drifts: Evidential Grounding for Robust Video Reasoning [68.75730050161219]
CoT(Chain-of-Thought)メカニズムは、テキストベースのタスクにおける推論を強化した。
CoTはビデオ推論のパフォーマンスを劣化させ、冗長だが内部のモノローグを誤解させる。
ビジュアルエビデンス・リワード(Visual Evidence Reward、VER)は、ビジュアルエビデンスに根ざした推論トレースの生成に明示的に報いる強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-07T16:03:33Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。
モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。
本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T06:30:02Z) - LvBench: A Benchmark for Long-form Video Understanding with Versatile Multi-modal Question Answering [49.68215536040896]
LvBenchは多目的なマルチモーダル質問応答のための長文ビデオ理解ベンチマークである。
ビデオは70秒から4時間で、シングルシーン、マルチシーン、フルシーンのコンテキストをカバーしています。
本データセットは、慎重に選択された100本の映画から得られた20,061組の質問応答対からなる。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。