論文の概要: TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living
- arxiv url: http://arxiv.org/abs/2606.20561v1
- Date: Thu, 18 Jun 2026 17:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.056338
- Title: TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living
- Title(参考訳): TimeProVe: 日常生活活動における高能率ビデオ時間推論のための提案と検証
- Authors: Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan, Hieu Le, Srijan Das,
- Abstract要約: 長いビデオの時間的根拠に基づく推論のための費用効率のよいフレームワークであるTimeProVeを紹介する。
TimeProVeは、まず軽量モジュールを使用してアクショングラウンドの回答-エビデンス仮説を生成する。
私たちのフレームワークの中核はAction-based Candidate Evidence (ACE)モジュールにあります。
- 参考スコア(独自算出の注目度): 22.90849009713782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long Video Question Answering (LVQA) requires identifying sparse, query-relevant evidence within hours-long untrimmed videos. Existing approaches either process videos densely with large vision-language models (VLMs), incurring prohibitive computational cost, or rely on sparse caption-based reasoning, which often misses temporally localized and motion-centric evidence. We introduce TimeProVe, a cost-efficient hybrid framework for temporally grounded reasoning in long videos. TimeProVe first employs lightweight modules to generate action-grounded answer--evidence hypotheses and subsequently invokes an expensive VLM only for targeted verification. The core of our framework lies in the Action-based Candidate Evidence (ACE) module, which converts temporally localized actions into query-conditioned candidate answers and supporting evidence windows through lightweight LLM reasoning. We further introduce OpenTSUBench (OTB), an open-ended benchmark designed to evaluate temporally grounded reasoning in real-world Activities of Daily Living (ADL) scenarios. Experiments show that TimeProVe outperforms the strongest baseline on OTB by 7.3%, while reducing VLM calls by 75% and inference cost by 93%. Furthermore, without explicit temporal grounding training, TimeProVe achieves competitive performance on Charades-STA, and reaches state-of-the-art results when enhanced with grounding VLMs.
- Abstract(参考訳): Long Video Question Answering (LVQA) は、何時間も経たないビデオの中で、スパースでクエリ関連のある証拠を特定する必要がある。
既存のアプローチでは、ビデオが大きな視覚言語モデル(VLM)で密に処理されるか、禁止的な計算コストが生じるか、あるいはスパースキャプションベースの推論に依存している。
長いビデオの時間的根拠に基づく推論のための,コスト効率のよいハイブリッドフレームワークであるTimeProVeを紹介する。
TimeProVeはまず軽量モジュールを使用してアクショングラウンドの回答-エビデンス仮説を生成し、次にターゲット検証のみに高価なVLMを起動する。
このモジュールは、時間的局所化されたアクションをクエリ条件の候補回答に変換し、軽量なLCM推論を通じてエビデンスウィンドウをサポートする。
さらに,リアルタイム生活活動(ADL)シナリオにおける時間的根拠に基づく推論を評価するために設計された,オープンエンドベンチマークであるOpentsuBench(OTB)についても紹介する。
実験によると、TimeProVeはTBのベースラインを7.3%、VLMコールを75%、推論コストを93%上回っている。
さらに, 時間的接地訓練を伴わないTimeProVeは, チャラデス-STAの競争性能を達成し, 接地VLMの強化による最先端化を実現している。
関連論文リスト
- TLG: Temporal-Logic Grounding for Video Question Answering via Source-Annotation Reconstruction and Category-Targeted Reasoning [0.0]
TimeLogic Challengeはビデオ上での時間的論理的推論を評価する。
エンド・ツー・エンドのビデオ言語モデル(VLM)は、動画をフレームの袋として扱い、アクションの発生時にローカライズできないため、このタスクでほぼチャンスを逃す。
TLG(Temporal-Logic Grounding)は、ベンチマークが生成した公開ソースデータセットアノテーションから、各ビデオのアクションタイムラインを再構築する3層システムである。
論文 参考訳(メタデータ) (2026-06-01T02:40:25Z) - EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos [56.23636449524238]
現実世界の録音は数分間かそれ以上で、希少で多様なイベントを含むことが多い。
既存のビデオカウントベンチマークのほとんどはショートクリップにフォーカスし、最終的な数値解のみを評価する。
本稿では,長文ビデオの列挙,カウント,時間的証拠を共同評価するベンチマークEC-Benchを紹介する。
論文 参考訳(メタデータ) (2026-03-31T16:16:17Z) - Narrative Aligned Long Form Video Question Answering [12.805359127629215]
NA-VQA(NA-VQA)は、長大なビデオにおける時間的・物語的推論を評価するためのベンチマークである。
NA-VQAには88本のフル長の映画と4.4Kのオープンエンドの質問応答ペアが含まれており、それぞれがショート、ミディアム、ファーとラベル付けされた複数のエビデンスに根拠を置いている。
本稿では、イベントレベルの連鎖を構築し、推論中の検索のための構造化メモリに格納する、物語中心のフレームワークであるVideo-NaRAを提案する。
論文 参考訳(メタデータ) (2026-03-19T21:23:15Z) - VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos [44.23732277782877]
長時間の理解では、一様フレームサンプリングはしばしば重要な視覚的証拠を捉えず、性能が低下し幻覚が増大する。
最近のエージェント思考とビデオのパラダイムが出現し、ローカライズ・クリップ・アンサー・パイプラインが採用されている。
我々は,ビデオグラウンドと質問応答を共同でモデル化する統合型エージェント思考・ビデオフレームワークであるVideoTemp-o3を提案する。
論文 参考訳(メタデータ) (2026-02-08T03:45:50Z) - Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding [139.83981719664794]
LVU(Long Video Understanding)は、現実のクエリに答えることが、数時間の計算時間内に埋められた、時間的に分散されたキューと無関係なコンテンツに依存するため、難しい。
我々は,映像をインタラクティブな環境として扱うエビデンス検索フレームワークであるActive Video Perception(AVP)を,画素から直接クエリ関連エビデンスを取得する。
論文 参考訳(メタデータ) (2025-12-05T15:03:48Z) - Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。
提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。
我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文 参考訳(メタデータ) (2025-10-19T22:12:45Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。