論文の概要: What Should a Streaming Video Model Remember?
- arxiv url: http://arxiv.org/abs/2606.16353v1
- Date: Mon, 15 Jun 2026 07:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.163
- Title: What Should a Streaming Video Model Remember?
- Title(参考訳): ストリーミング動画モデルって何?
- Authors: Haonan Ge, Yiwei Wang, Hang Wu, Yujun Cai,
- Abstract要約: ストリーミングビデオ理解モデルは、現在進行中のストリームの間、常にクエリに答えなければならない。
提案するTextbfSelectStreamは,クエリ条件のコンパクトなエビデンス予算を通じてのみ履歴情報を公開しながら,現在の観測結果を凍結したVLMに直接可視的に保持する,選択的潜在メモリフレームワークである。
実験の結果、SelectStreamは強力なオンラインストリーミング性能を示し、一般的なビデオ理解を保ち、StreamingBenchでは82.67%、OVO-Benchでは67.03%、オフラインビデオベンチマークでは74.4%に達した。
- 参考スコア(独自算出の注目度): 28.189301152079214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming video understanding models must answer queries at any moment during an ongoing stream, using only what they have observed so far and under fixed memory and computation budgets. Existing methods address this by adding memory banks, retrieval modules, or visual token compression to preserve long-range history. However, strong recent-window baselines show that indiscriminate history injection can dilute current-scene perception, suggesting that the key challenge is not whether to use memory, but how to allocate it selectively. We formulate this as budgeted online latent evidence allocation and propose \textbf{SelectStream}, a selective latent-memory framework that keeps the current observation directly visible to a frozen VLM while exposing historical information only through a compact, query-conditioned evidence budget. Three coordinated mechanisms govern when to write, what to preserve, and how to retrieve: surprise-driven adaptive windowing, priority-preserving consolidation, and query-conditioned graph reasoning over a fixed-capacity latent memory graph. Retrieved evidence is calibrated and injected as latent tokens for answer generation, without replaying frames or growing the context with stream length. Experimental results show that SelectStream achieves strong online streaming performance and preserves general video understanding, reaching 82.67\% on StreamingBench, 67.03\% on OVO-Bench, and 74.4\% average accuracy on offline video benchmarks, while outperforming strong recent-window baselines and prior streaming memory methods.
- Abstract(参考訳): ストリーミングビデオ理解モデルは、現在進行中のストリームの間、常にクエリに答えなければならない。
既存の方法は、メモリバンク、検索モジュール、あるいは長距離履歴を保存するために視覚トークン圧縮を追加することで、この問題に対処する。
しかし,近年の強い窓面ベースラインは,無差別な履歴注入が現在の場面での認識を希薄化させる可能性を示し,メモリの使用の有無や,それを選択的に割り当てる方法についての課題が示唆されている。
我々はこれをオンライン遅延エビデンス割り当ての予算として定式化し、よりコンパクトなクエリ条件のエビデンス予算によってのみ過去の情報を公開しつつ、現在の観察を凍結したVLMに直接見えるようにするための選択的な遅延メモリフレームワークである \textbf{SelectStream} を提案する。
3つのコーディネートされたメカニズムは、いつ書くか、何を保存するか、どのように検索するかを規定する: 驚き駆動適応ウィンドウ、優先度保存の強化、固定容量潜在メモリグラフ上のクエリ条件付きグラフ推論。
回収された証拠は、フレームを再生したり、ストリーム長でコンテキストを成長させたりすることなく、応答生成のための潜在トークンとして校正され、注入される。
実験の結果、SelectStreamは強力なオンラインストリーミング性能を達成し、StreamingBenchで82.67\%、OVO-Benchで67.03\%、オフラインビデオベンチマークで74.4\%に到達し、最近の強風ベースラインと先行ストリーミングメモリの手法より優れていた。
関連論文リスト
- TetherCache: Stabilizing Autoregressive Long-Form Video Generation with Gated Recall and Trusted Alignment [51.33418612284208]
ドリフト耐性長ビデオ生成のためのトレーニングフリーでプラグアンドプレイのキャッシュ管理戦略であるTetherCacheを提案する。
Gated Recall with Attention-Diversity Balancingは、ゲートスコアを使用して長距離メモリフレームを選択する。
TAMEは、信頼されたコンテキスト分布に統計を合わせることで、新しくリコールされたメモリトークンを軽量に編集する。
論文 参考訳(メタデータ) (2026-06-11T08:16:08Z) - Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding [55.7992006853979]
SAVEMemは、セマンティックな認識をメモリ生成にもたらすフレームワークで、クエリ毎に検索スコープを適応させる。
SAVEMemは、メモリ生成にセマンティックな認識をもたらし、クエリ毎に検索範囲を適応させる、トレーニングフリーのデュアルステージフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T15:40:40Z) - Progressive Online Video Understanding with Evidence-Aligned Timing and Transparent Decisions [75.23170605943457]
textbfmodelは、メモリ統合から推論制御を分離するフレームワークである。
emphActive Thinking Decision Maker (ATDM)は、決定プロセスの外部化を行う透明な推論コントローラである。
emphHierarchical Progressive Semantic Integration (HPSI)モジュールは効率的なメモリシステムとして機能する。
論文 参考訳(メタデータ) (2026-04-20T16:15:33Z) - A Simple Baseline for Streaming Video Understanding [44.77185258429313]
直近のNフレームのみをオフザシェルフVLMに供給するスライディングウィンドウベースラインを形式化する。
OVO-BenchとStreamingBenchをベースとした13のオフラインおよびオンラインビデオLLMベースラインに対して評価を行った。
論文 参考訳(メタデータ) (2026-04-02T17:58:04Z) - WAT: Online Video Understanding Needs Watching Before Thinking [25.136741695647213]
WAT(Watching Before Thinking)は、オンラインビデオ推論のための2段階のフレームワークである。
処理をクエリ非依存の監視ステージとクエリトリガーの思考ステージに分離する。
オンラインビデオベンチマークでは、StreamingBenchでは77.7%、OVO-Benchでは55.2%の精度で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-12T13:42:32Z) - Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives [54.07515675393396]
既存のソリューションは、事前に定義された戦略で過去のフレームを圧縮することでメモリを維持する。
我々はこの問題に対処するためにMemFlowを提案する。
MemFlowは、無視可能な負担を伴う、卓越した長いコンテキスト整合性を実現する。
論文 参考訳(メタデータ) (2025-12-16T18:59:59Z) - StreamForest: Efficient Online Video Understanding with Persistent Event Memory [37.73273040737155]
StreamForestは、ビデオの理解をストリーミングするために設計されている。
微粒な時空間ウィンドウは、現在のシーン知覚を改善するために、詳細な短期的な視覚的手がかりをキャプチャする。
OnlineITはリアルタイム認識と将来の予測の両方においてMLLMのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-29T14:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。