論文の概要: Conditional Multi-Event Temporal Grounding in Long-Form Video
- arxiv url: http://arxiv.org/abs/2606.15320v1
- Date: Sat, 13 Jun 2026 14:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.351032
- Title: Conditional Multi-Event Temporal Grounding in Long-Form Video
- Title(参考訳): 長時間ビデオにおける条件付き複数イベント時間グラウンド
- Authors: Yuanhao Zou, Arthad Kulkarni, Lucas Tonanez, Lincoln Spencer, Guangyu Sun, Tianxingjian Ding, Andong Deng, Yi Li, Shuangjun Liu, Yuan Li, Dashan Gao, Ning Bi, Taotao Jing, Shuai Zhang, Chen Chen,
- Abstract要約: 既存のベンチマークは、クエリ毎に1つのモーメントだけをローカライズするか、時間的条件なしでカウントするか、グラウンドとカウントを非結合タスクとして扱います。
我々は,CoMET-Bench for Multi-Event Temporal Grounding in long-form video, includes 2789 query over 600 video a averageging 33.8 minutes across 5 real-world domain。
提案するCoMET-Agentは,F1@0.5をGPT-5より6.1%改善し,構造化検索・集約としてタスクを再構築するフリーエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 19.941856770065854
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models have made rapid progress in video temporal grounding, yet real-world applications routinely require localizing every event that satisfies compositional temporal and spatial conditions. Existing benchmarks fall short: they localize only a single moment per query, count without temporal conditions, or treat grounding and counting as disjoint tasks. We introduce CoMET-Bench for Conditional Multi-Event Temporal Grounding in long-form video, comprising 2789 queries over 600 videos averaging 33.8 minutes across five real-world domains, with each query composed from 4 temporal conditions, 3 spatial conditions, and a dedicated negative-query subset. We further propose a unified evaluation protocol jointly measuring counting, grounding, and negative-query recognition, including a new Rejection-F1 metric that prevents trivial gaming by lazy "always-empty" models. Benchmarking a broad suite of MLLMs, agent-based, and grounding-specialized methods reveals that existing approaches remain far from solving this task. Building on these findings, we propose CoMET-Agent, a training-free agentic framework that reformulates the task as structured search-and-aggregate, improving F1@0.5 by 6.1% over GPT-5 purely through structural reasoning. Failure analysis further surfaces three open directions: fine-grained entity tracking, position-uniform retrieval, and causal event pairing.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、ビデオの時間的接地において急速に進歩しているが、実世界の応用では、構成的時間的および空間的条件を満たす全ての事象をローカライズする必要がある。
既存のベンチマークは、クエリ毎に1つのモーメントだけをローカライズするか、時間的条件なしでカウントするか、グラウンドとカウントを非結合タスクとして扱います。
コンディショナル・マルチイベント・テンポラル・グラウンドリングのためのCoMET-Benchを,5つの実世界のドメインで平均33.8分,4つの時間条件,3つの空間条件,1つの専用負の問合せからなる,2789の問合せを含む長大ビデオで紹介する。
さらに,遅延型「常時空」モデルによる自明なゲームを防止するため,新たなRejection-F1メトリックを含む,カウント,グラウンド,負のクエリ認識を共同で計測する統一評価プロトコルを提案する。
MLLM、エージェントベース、グラウンド化特化メソッドの幅広いスイートをベンチマークすると、既存のアプローチがこの課題を解決するには程遠いことが分かる。
これらの知見に基づいて,構造化された検索・集約としてタスクを再構築する,トレーニングフリーなエージェントフレームワークであるCoMET-Agentを提案し,構造的推論により,GPT-5よりもF1@0.5が6.1%向上した。
フェール解析はさらに、細粒度のエンティティ追跡、位置一様検索、因果イベントペアリングという3つのオープンな方向を探索する。
関連論文リスト
- Towards One-to-Many Temporal Grounding [37.64021368680856]
現実世界のシナリオでは、単一のクエリに対して複数の分離セグメントをローカライズする必要があることが多い。
従来の最先端のMLLMは、1対1の設定に最適化されており、この状況では苦労している。
3つの重要なコントリビューションを持つシステマティックなソリューションを提示します。
論文 参考訳(メタデータ) (2026-06-04T15:31:22Z) - TLG: Temporal-Logic Grounding for Video Question Answering via Source-Annotation Reconstruction and Category-Targeted Reasoning [0.0]
TimeLogic Challengeはビデオ上での時間的論理的推論を評価する。
エンド・ツー・エンドのビデオ言語モデル(VLM)は、動画をフレームの袋として扱い、アクションの発生時にローカライズできないため、このタスクでほぼチャンスを逃す。
TLG(Temporal-Logic Grounding)は、ベンチマークが生成した公開ソースデータセットアノテーションから、各ビデオのアクションタイムラインを再構築する3層システムである。
論文 参考訳(メタデータ) (2026-06-01T02:40:25Z) - Towards Open-World Referring Expression Comprehension: A Benchmark with Training-free Multi-task Consistency Checker [4.731771934553726]
Referring Expression comprehension (REC) は、所定の式に基づいて画像内の対象物をローカライズすることを目的としている。
OpenRefは複雑な視覚的および言語的シナリオにおけるRECの新しいベンチマークである。
論文 参考訳(メタデータ) (2026-05-25T11:05:37Z) - ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search [49.61286310968402]
我々は,対話型推論問題として,マルチカメラの人物探索を再構成する最初のベンチマークとフレームワークであるARGOSを紹介する。
ARGOSエージェントはあいまいな目撃声明を受け取り、何を尋ねるか、いつ空間的または時間的ツールを呼び出すか、不明瞭な応答をどう解釈するかを判断しなければならない。
このベンチマークは、意味的知覚(Who)、空間的推論(Where)、時間的推論(When)の3つのプログレッシブトラックにおいて、14の現実世界シナリオにまたがる2,691のタスクからなる。
論文 参考訳(メタデータ) (2026-04-14T14:06:19Z) - Spatio-Temporal Grounding of Large Language Models from Perception Streams [3.426888015461207]
本稿では,検証可能な時間的監督を大規模言語モデルに注入するFESTS(Formally Explainable Scenes)を紹介する。
27kで3ビリオンレベルのモデルを訓練すると、フレームサイズは桁違いに88.5%に向上し、複雑な時間的推論において GPT-4.1 と一致する。
論文 参考訳(メタデータ) (2026-04-08T20:49:50Z) - VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification [73.02304272829785]
VideoBenchは、証拠を厳格に検証する長ビデオ応答のための階層的なベンチマークだ。
これは、13のドメインに500の注釈付き質問を手動で記述し、時間間隔と空間境界ボックスを組み合わせて証拠とする。
GeminiPro-3-Proでさえ、標準のエンドツーエンドのQA設定で17%未満の質問に正しく答えている。
その結果,表面レベルでの回答の正しさと真正な証拠に基づく推論との間に大きなギャップが生じた。
論文 参考訳(メタデータ) (2026-04-02T03:29:43Z) - ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance [56.15563109738998]
ForeSeaは3段階のプラグアンドプレイパイプラインを備えたAI法医学検索システムである。
ForeSeaは従来のビデオRAGモデルよりも精度を3.5%向上し、一時IoUは11.0向上した。
論文 参考訳(メタデータ) (2026-03-24T07:15:28Z) - OmniGround: A Comprehensive Spatio-Temporal Grounding Benchmark for Real-World Complex Scenarios [39.58602686069029]
OmniGroundは、81のカテゴリにまたがる3,475の動画と複雑な現実世界のクエリを備えた総合的なベンチマークである。
また、4つの相補的な次元にわたるデータセット品質を定量化するシステム評価フレームワークであるDeepSTGについても紹介する。
実験では、PG-TAFはm_tIoUとm_vIoUを25.6%、35.6%改善し、4つのベンチマークで一貫した利得を得た。
論文 参考訳(メタデータ) (2025-11-21T04:23:04Z) - Towards Anytime Retrieval: A Benchmark for Anytime Person Re-Identification [85.78039373517021]
Anytime Person Re-identification (AT-ReID) は、時間変動に基づく複数のシナリオにおいて効果的な検索を実現することを目的としている。
最初の大規模なデータセットであるAT-USTCは、複数の服を着ている人の403万枚の画像を含む。
シナリオ固有の特徴学習のためのマルチシナリオReIDフレームワークを含むUni-ATという統一モデルを提案する。
論文 参考訳(メタデータ) (2025-09-20T11:20:22Z) - Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection [67.70328796057466]
Grounding-MDは、オープンワールドのモーメント検出に適した、革新的なビデオ言語事前学習フレームワークである。
我々のフレームワークは、構造化されたプロンプト機構を通じて、任意の数のオープンな自然言語クエリを組み込む。
Grounding-MDは特異なセマンティック表現学習能力を示し、多種多様な複雑なクエリ条件を効果的に処理する。
論文 参考訳(メタデータ) (2025-04-20T09:54:25Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。