論文の概要: MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism
- arxiv url: http://arxiv.org/abs/2606.07512v1
- Date: Fri, 05 Jun 2026 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.886883
- Title: MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism
- Title(参考訳): MemDreamer:階層的なグラフ記憶とエージェント検索機構による長いビデオ理解のための認識と推論の分離
- Authors: Cong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen,
- Abstract要約: 現在のVision-Language Modelsは、フル長のビジュアルシーケンスを処理することによって、禁止されたトークンの爆発と注意の希釈を引き起こすため、数時間のビデオに苦労している。
我々はMemDreamerを導入し、知覚と推論を分離し、長いビデオ理解をエージェント探索プロセスに移行する。
MemDreamerは4つの主要なベンチマークでSOTAの結果を達成し、人間の専門家とのギャップをわずか3.7ポイントに縮める。
- 参考スコア(独自算出の注目度): 70.69809410471993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Vision-Language Models struggle with hours-long videos because processing full-length visual sequences induces prohibitive token explosion and attention dilution. To overcome this, we introduce MemDreamer to decouple perception and reasoning, shifting long-video understanding into an agentic exploration process. As a plug-and-play framework, it incrementally streams videos to construct a Hierarchical Graph Memory, a top-down three-tier architecture for semantic abstraction, anchored by a foundational graph capturing spatiotemporal and causal relations. During inference, the reasoning model employs agentic tool-augmented retrieval, navigating hierarchies, searching nodes, and traversing logical edges via an Observation-Reason-Action loop. Experiments show MemDreamer achieves SOTA results across four mainstream benchmarks, narrowing the gap with human experts to only 3.7 points. It constrains the reasoning context window to merely 2% of full-context ingestion while delivering a 12.5 point absolute accuracy gain. Furthermore, statistical analysis uncovers a strong positive linear correlation between an VLM's performance on logic reasoning and long-video understanding benchmarks, establishing agentic capability scaling as a new paradigm for multimodal comprehension.
- Abstract(参考訳): 現在のVision-Language Modelsは、フル長のビジュアルシーケンスを処理することによって、禁止されたトークンの爆発と注意の希釈を引き起こすため、数時間のビデオに苦労している。
そこで我々は,MemDreamerを導入して認識と推論を分離し,長いビデオ理解をエージェント探索プロセスに移行する。
プラグイン・アンド・プレイのフレームワークとして、ビデオストリームをインクリメンタルにストリームして階層グラフメモリを構築する。これはセマンティック抽象化のためのトップダウンの3層アーキテクチャで、時空間と因果関係をキャプチャする基礎グラフに固定されている。
推論の間、推論モデルはエージェントツール拡張検索、階層のナビゲート、ノードの探索、およびオブザーバ・レーソン・アクション・ループを介して論理的エッジをトラバースする。
実験では、MemDreamerは4つの主要なベンチマークでSOTAの結果を達成し、人間の専門家とのギャップをわずか3.7ポイントに縮めた。
推論コンテキストウィンドウを12.5ポイントの絶対精度のゲインを提供しながら、フルコンテキストの取り込みの2%に制限する。
さらに,論理的推論におけるVLMの性能と長ビデオ理解ベンチマークとの間には強い正の線形相関関係が明らかとなり,マルチモーダル理解のための新しいパラダイムとしてエージェント能力スケーリングが確立された。
関連論文リスト
- Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning [14.945921705882725]
この研究はMLLMビデオ理解における知覚と世代間のギャップを埋め、ビデオQAアプリケーションのための解釈可能で忠実な推論パラダイムを提供する。
階層的人間の視覚認知に着想を得たClueNetを提案する。
論文 参考訳(メタデータ) (2026-03-16T09:15:12Z) - See What You Need: Query-Aware Visual Intelligence through Reasoning-Perception Loops [12.59611152403781]
本稿では、推論、認識調整を通じて映像理解に革命をもたらすトレーニングフリーのフレームワークであるCAVIAを提案する。
視覚処理が推論とは無関係に機能する従来の手法とは異なり、CAVIAは推論が識別された情報ギャップに基づいて視覚的抽出を継続的に導く閉ループシステムを作成する。
論文 参考訳(メタデータ) (2025-08-25T12:00:12Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Towards Neuro-Symbolic Video Understanding [3.767558059128794]
長期的時間的推論は、フレーム検索システムにとって重要なデシダータムである。
この失敗の主な理由は、フレーム単位の認識と時間的推論を1つのディープネットワークに織り込むためである。
本稿では,個々のフレームの意味的理解に視覚言語モデルを活用するシステムを提案する。
論文 参考訳(メタデータ) (2024-03-16T21:40:27Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。