論文の概要: CACR:Reinforcing Temporal Answer Grounding in Instructional Video via Candidate-Aware Causal Reasoning
- arxiv url: http://arxiv.org/abs/2606.08436v2
- Date: Thu, 11 Jun 2026 06:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.498035
- Title: CACR:Reinforcing Temporal Answer Grounding in Instructional Video via Candidate-Aware Causal Reasoning
- Title(参考訳): CACR:Candidate-Aware Causal Reasoningによる教育ビデオにおける時間的アンサーグラウンドの強化
- Authors: Muge Qi, Rong Fu, Pengbin Feng, Xianda Li, Yu Cai, Yifu Guo, Shizhe Zhang, Simon James Fong, Lei Ma, Bin Li,
- Abstract要約: TAGVは、自然言語クエリに応答する正確なビデオセグメントを見つけることを目的としている。
この課題は、意味論的に複雑な質問を理解する必要があるため、依然として困難である。
本稿では,これらの制約に対処するための候補対応因果推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.230031783815749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of temporal answer grounding in instructional video (TAGV), which aims to locate precise video segments that respond to natural language queries, is increasingly important for direct video answer retrieval. This task remains challenging due to the need to comprehend semantically complex questions and to address the significant length mismatch between untrimmed videos and short target moments. Existing methods often suffer from sensitivity to irrelevant content or insufficient visual reasoning capabilities. To tackle these limitations, we propose a Candidate-Aware Causal Reasoning (CACR) framework. Our approach first employs a Visual-Language Pre-training based Candidate Selection (VBCS) algorithm to efficiently generate K candidate segments, then applies a temporal logic reasoning module enhanced by a rejection reward mechanism and optimized via Group Relative Policy Optimization (GRPO) for robust inference. Extensive experiments on six benchmarks demonstrate that our method achieves state-of-the-art performance in terms of mean Intersection-over-Union (mIoU), providing a new perspective for reasoning-based retrieval in long videos.
- Abstract(参考訳): 自然言語クエリに応答する正確なビデオセグメントを見つけることを目的とした,教示ビデオ(TAGV)における時間的応答基盤の課題は,ビデオ応答の直接検索においてますます重要になっている。
この課題は、意味論的に複雑な質問を理解し、未トリミングビデオと短いターゲットモーメントの間のかなりの長さのミスマッチに対処する必要があるため、依然として困難である。
既存の方法は、無関係なコンテンツに対する感受性や、不十分な視覚的推論能力に悩まされることが多い。
これらの制約に対処するために、Candidate-Aware Causal Reasoning (CACR) フレームワークを提案する。
提案手法はまず,視覚言語事前学習に基づく候補選択(VBCS)アルゴリズムを用いて,K個の候補セグメントを効率よく生成し,拒絶報酬機構によって強化された時間論理推論モジュールを適用し,グループ相対ポリシー最適化(GRPO)を用いて頑健な推論を行う。
6つのベンチマークを総合的に比較したところ,提案手法は平均的インターセクション・オーバー・ユニオン(mIoU)で最先端の性能を達成し,長編ビデオにおける推論に基づく検索の新たな視点を提供する。
関連論文リスト
- SeViCES: Unifying Semantic-Visual Evidence Consensus for Long Video Understanding [36.30263540665245]
本稿では,効果的で信頼性の高いロングビデオ理解のためのフレームワークを提案する。
SeViCESはトレーニング不要でモデルに依存しない2つの重要なコンポーネントを導入している。
長いビデオ理解ベンチマークの実験によると、SeViCESは精度と堅牢性の両方で最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-23T14:55:28Z) - Temporal Prompting Matters: Rethinking Referring Video Object Segmentation [64.82333675385802]
Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。
既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。
本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-08T17:59:57Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering [10.060267989615813]
本稿では,これらのギャップを埋める斬新な手法であるLeAdQAを紹介する。
NExT-QA, IntentQA, NExT-GQAに関する実験により, 本手法の正確な視覚的基盤化は, 映像検索関係の理解を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-20T01:57:00Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。