論文の概要: Temporal-Aware Reasoning Optimization for Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2606.09248v1
- Date: Mon, 08 Jun 2026 09:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.891405
- Title: Temporal-Aware Reasoning Optimization for Video Temporal Grounding
- Title(参考訳): ビデオ時間グラウンドの時間認識推論最適化
- Authors: Minghang Zheng, Zihao Yin, Yi Yang, Yuxin Peng, Yang Liu,
- Abstract要約: 本稿では,時間的思考能力を明確に向上させるフレームワークであるTaRO(Temporal-Aware Reasoning Optimization)を提案する。
まず、事前生成した高密度キャプションを利用して、明示的な視覚的手がかりやタイムスタンプに基づく推論経路を構築するコンストラクティブ推論探索を導入する。
第二に、推論の品質を評価するために、テンポラル・センシティビティ・リワードを設計する。高品質な推論は特定のイベントやタイムスタンプに固定されるべきである。
- 参考スコア(独自算出の注目度): 55.29748680163419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with reinforcement learning for generating reasoning paths. However, existing models often produce superficial reasoning, which offers limited guidance for precise temporal localization. This limitation stems from (1) inefficient random exploration and (2) reward functions that focus solely on the answer correctness while ignoring reasoning quality. To address these issues, we propose TaRO (Temporal-Aware Reasoning Optimization), a framework that explicitly enhances the model's ability of thinking with time. First, we introduce a Constructive Reasoning Exploration that leverages pre-generated dense captions to construct reasoning paths grounded in explicit visual cues and timestamps, enabling efficient exploration of high-quality time-aware reasoning. Second, to evaluate reasoning quality, we design a Temporal-Sensitivity Reward. High-quality reasoning should be anchored to specific events and timestamps. If the event boundary under thinking is disrupted, such reasoning should become invalid, leading to a drop in the logit of the reasoning path. We utilize this drop as a critique of reasoning quality. Finally, TaRO follows a progressive curriculum, which starts by utilizing this reward to select better constructed reasoning paths, and evolves to a free exploration phase where the model autonomously generates effective reasoning. Experiments demonstrate that TaRO achieves state-of-the-art performance on VTG benchmarks. Code is available at https://github.com/oceanflowlab/TaRO.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、ビデオ時間的グラウンドニングにおいて、推論経路を生成するための強化学習による顕著な進歩を達成している。
しかし、既存のモデルはしばしば表面的推論を生成し、正確な時間的局所化のための限られたガイダンスを提供する。
この制限は、(1)非効率なランダム探索と(2)応答の正しさにのみ焦点をあてる報酬関数から生じる。
これらの問題に対処するため,時間とともに思考能力を高めるフレームワークであるTaRO(Temporal-Aware Reasoning Optimization)を提案する。
まず、事前生成した高密度キャプションを利用して、明示的な視覚的手がかりやタイムスタンプに基づく推論経路を構築することで、高品質な時間認識推論の効率的な探索を可能にするコンストラクティブ推論探索を提案する。
第二に、推論品質を評価するために、時間感度リワードを設計する。
高品質な推論は、特定のイベントやタイムスタンプに固定されるべきである。
思考中のイベント境界が破壊されると、そのような推論は無効になり、推論パスのロジットが低下する。
私たちはこの落差を推論品質の批判として利用する。
最後に、TaROはプログレッシブカリキュラムに従い、この報酬を利用してより良い構築された推論経路を選択し、モデルが自律的に効果的な推論を生成する自由な探索段階へと進化する。
実験により、TaROはVTGベンチマークで最先端のパフォーマンスを達成することが示された。
コードはhttps://github.com/oceanflowlab/TaROで公開されている。
関連論文リスト
- Rationale-Grounded In-Context Learning for Time Series Reasoning with Multimodal Large Language Models [39.75347938309383]
本稿では,時間列推論のための理性学習手法を提案する。
提案するRationaleTSの3ドメイン時系列推論タスクにおける有効性と有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2026-01-06T12:27:04Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding [28.79516973256083]
時間的ビデオグラウンディングは、自然言語クエリに対応するビデオセグメントを正確にローカライズすることを目的としている。
テンポラルビデオグラウンド(TAR-TVG)のためのタイムスタンプアンカー制約推論を提案する。
TAR-TVGは、思考内容の明示的な監督を強制するために、推論プロセス内にタイムスタンプアンカーを導入する。
論文 参考訳(メタデータ) (2025-08-11T06:59:32Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。
LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。
トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。