論文の概要: NEST: Narrative Event Structures in Time for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2606.19706v1
- Date: Thu, 18 Jun 2026 02:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.608012
- Title: NEST: Narrative Event Structures in Time for Long Video Understanding
- Title(参考訳): NEST: 長いビデオ理解のための物語的イベント構造
- Authors: Ali Asgarov, Kaushik Narasimhan, Najibul Haque Sarker, Hani Alomari, Chia-Wei Tang, Anushka Sivakumar, Zaber Ibn Abdul Hakim, Shaurya Mallampati, Chris Thomas,
- Abstract要約: NEST(Narrative Event Structures in Time for Long Video Understanding)は1005本のフル長映画(約98分)のデータセットである。
NESTは、視覚コンテンツ、対話、音声を基盤とした構造化されたアノテーションでマルチモーダルな物語イベントをキャプチャし、物語構造を反映した関係を通してそれらをリンクする。
ETDは8%以下、ELは6%以下、EAEは11%以下である。
- 参考スコア(独自算出の注目度): 6.938433277109506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in vision-language models has enabled the processing of increasingly long video sequences, but the ability to handle extended token streams does not translate to understanding of narrative structure in long videos. Existing long video benchmarks focus on needle-in-a-haystack retrieval rather than evaluating how low-level actions form events, how events interact across time, and how narratives progress, for example, whether a model can connect an early setback, such as a job loss to a later relationship breakup, despite long gaps, intervening scenes, or flashbacks that reframe what occurred. We introduce NEST (Narrative Event Structures in Time for Long Video Understanding), a dataset of 1005 full-length movies (avg. 98 minutes), each annotated with 102 multimodal narrative events grounded in visual content, dialogue, and audio. NEST captures multimodal narrative events with structured annotations grounded in visual content, dialogue, and audio, and links them through relations that reflect narrative structure, including temporal ordering, hierarchical composition, and long-range dependencies. We introduce baselines for event trigger detection (ETD), event localization (EL), event argument extraction (EAE), and event relation extraction (ERE). The benchmark is highly challenging for grounded event discovery, with ETD below 8%, EL under 6%, and EAE below 11%. In contrast, ERE is more tractable once events are given, reaching 35.45% F1 zero-shot and 44.42% F1 after fine-tuning.
- Abstract(参考訳): 視覚言語モデルの最近の進歩により、ますます長いビデオシーケンスの処理が可能になったが、拡張トークンストリームを扱う能力は、長いビデオの物語構造を理解することには変換されない。
既存のビデオベンチマークでは、低レベルのアクションがどのようにイベントを形成し、時間を通してイベントがどのように相互作用し、物語が進行するかを評価するよりも、ニードル・イン・ア・ヘイスタックの検索に重点を置いている。
NEST(Narrative Event Structures in Time for Long Video Understanding)は、1005本のフル長映画(約98分)のデータセットで、それぞれ視覚コンテンツ、対話、オーディオをベースとした102のマルチモーダルな物語イベントをアノテートする。
NESTは、視覚的内容、対話、音声を基盤とした構造化されたアノテーションでマルチモーダルな物語イベントをキャプチャし、時間的順序付け、階層的構成、長距離依存関係を含む物語構造を反映した関係を通してそれらをリンクする。
本稿では、イベントトリガ検出(ETD)、イベントローカライゼーション(EL)、イベント引数抽出(EAE)、イベント相関抽出(ERE)のベースラインを紹介する。
ETDは8%以下、ELは6%以下、EAEは11%以下である。
対照的に、EREはイベントが与えられるとより魅力的になり、微調整後に35.45%のF1ゼロショットと44.42%のF1に達する。
関連論文リスト
- Narrative Aligned Long Form Video Question Answering [12.805359127629215]
NA-VQA(NA-VQA)は、長大なビデオにおける時間的・物語的推論を評価するためのベンチマークである。
NA-VQAには88本のフル長の映画と4.4Kのオープンエンドの質問応答ペアが含まれており、それぞれがショート、ミディアム、ファーとラベル付けされた複数のエビデンスに根拠を置いている。
本稿では、イベントレベルの連鎖を構築し、推論中の検索のための構造化メモリに格納する、物語中心のフレームワークであるVideo-NaRAを提案する。
論文 参考訳(メタデータ) (2026-03-19T21:23:15Z) - TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions [64.27159505605312]
提案するOmni Captioningは,明示的なタイムスタンプによる連続的,きめ細かな,構造化された視覚的物語を生成するために設計された新しいタスクである。
密接なセマンティックカバレッジを確保するため、私たちは6次元構造スキーマを導入し、"script-like"キャプションを作成します。
大規模な実験により、TimeChat-Captioner-7BはGemini-2.5-Proを抜いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2026-02-09T14:21:58Z) - LET-US: Long Event-Text Understanding of Scenes [23.376693904132786]
イベントカメラは、マイクロ秒レベルの時間分解能を備えたスパースで非同期なデータとしてイベントストリームを出力する。
長いイベントストリーム・テキスト理解のためのフレームワークであるLET-USを紹介する。
適応圧縮機構を用いて、重要な視覚的詳細を保存しながら入力イベントの量を削減する。
論文 参考訳(メタデータ) (2025-08-10T16:02:41Z) - SceneRAG: Scene-level Retrieval-Augmented Generation for Video Understanding [6.980340270823506]
SceneRAGは,映像を物語に一貫性のあるシーンに分割するフレームワークである。
各シーンについて、このフレームワークは視覚とテキストの両方のモダリティから情報を融合し、エンティティ関係を抽出する。
LongerVideosベンチマークの実験では、134時間以上の多様なコンテンツがあり、SceneRAGが以前のベースラインを大幅に上回っていることを確認した。
論文 参考訳(メタデータ) (2025-06-09T10:00:54Z) - TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action [28.930109403769166]
ビデオの時間的理解を高めるための2段階トレーニングフレームワークTEMPURAを提案する。
TEMPURAは、まずマスク付きイベント予測推論を適用して、欠落したイベントを再構築し、密集したイベントアノテーションからステップバイステップの因果説明を生成する。
私たちはVERでTEMPURAをトレーニングします。これは、100万のトレーニングインスタンスと500Kのビデオで構成され、時間的に整ったイベント記述と構造化された推論ステップで構成されています。
論文 参考訳(メタデータ) (2025-05-02T21:00:17Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。