論文の概要: LiveStarPro: Proactive Streaming Video Understanding with Hierarchical Memory for Long-Horizon Streams
- arxiv url: http://arxiv.org/abs/2606.17798v1
- Date: Tue, 16 Jun 2026 11:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.397669
- Title: LiveStarPro: Proactive Streaming Video Understanding with Hierarchical Memory for Long-Horizon Streams
- Title(参考訳): LiveStarPro: 時系列ストリームのための階層記憶によるプロアクティブストリーミングビデオ理解
- Authors: Zhenyu Yang, Kairui Zhang, Bing Wang, Shengsheng Qian, Changsheng Xu,
- Abstract要約: このLiveStarProは、長時間のストリーミング上でのプロアクティブなビデオ理解のために設計されたライブストリーミングアシスタントである。
LiveStarProは既存のメソッドを一貫して上回り、セマンティックな正確性は28.9%向上した。
そのストリーミングキーバリューキャッシュは、キャッシュなしで同じモデル上で1.58倍の推論速度を得る。
- 参考スコア(独自算出の注目度): 59.485485426790966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable progress of Video Large Language Models (Video-LLMs), current online architectures still struggle to simultaneously process continuous video streams, decide autonomously when to respond, and preserve long-horizon contextual memory. These obstacles undermine real-time responsiveness and cause severe forgetting throughout prolonged interactions. In this work, we introduce LiveStarPro, a live streaming assistant that is designed for proactive video understanding over long-horizon streams. The design of LiveStarPro rests on three complementary components. The first component is Streaming Verification Decoding (SVeD), an inference framework that identifies the appropriate response timing through single-pass perplexity verification, thereby eliminating the dependency on explicit silence tokens. The second component is Streaming Causal Attention Masks (SCAM), a training strategy that enforces incremental video-language alignment over variable-length streams. The third component is Tree-Structured Hierarchical Memory (TSHM), a recursive memory architecture that organizes evicted historical information into event chains and consequently enables efficient retrieval from effectively unbounded video streams. To facilitate a comprehensive evaluation under realistic online conditions, we further present OmniStarPro, a large-scale benchmark that spans 15 diverse real-world scenarios and that extends to hour-scale streams for the assessment of long-term recall. Extensive experiments demonstrate that LiveStarPro consistently surpasses existing methods, attaining a 28.9% improvement in semantic correctness and an 18.2% reduction in timing error, while its streaming key-value cache further yields a 1.58x inference speedup over the same model without caching. The model and the code are publicly available at https://github.com/sotayang/LiveStarPro.
- Abstract(参考訳): ビデオ大言語モデル(Video Large Language Models, Video-LLMs)の顕著な進歩にもかかわらず、現在のオンラインアーキテクチャは、継続的ビデオストリームの同時処理、応答のタイミングの自律決定、長期記憶の保存に苦慮している。
これらの障害は、リアルタイムの応答性を損なうとともに、長時間の相互作用を通じて深刻な忘れを生じさせる。
本研究では,長時間のストリーミング上でのプロアクティブなビデオ理解を目的としたライブストリーミングアシスタントであるLiveStarProを紹介する。
LiveStarProの設計は3つの補完的なコンポーネントに依存している。
第1のコンポーネントであるStreaming Verification Decoding (SVeD)は,単一パスのパープレキシティ検証を通じて適切な応答タイミングを識別する推論フレームワークである。
第2のコンポーネントは Streaming Causal Attention Masks (SCAM) である。
第3のコンポーネントであるTree-Structured Hierarchical Memory (TSHM) は、過去の情報をイベントチェーンに整理した再帰的メモリアーキテクチャである。
現実的なオンライン条件下での総合的な評価を容易にするため,15の多様な実世界のシナリオにまたがる大規模ベンチマークであるOmniStarProを,長期的リコール評価のために1時間単位のストリームに拡張した。
大規模な実験により、LiveStarProは既存の手法を一貫して上回り、セマンティックな正確さが28.9%向上し、タイミングエラーが18.2%減少した。
モデルとコードはhttps://github.com/sotayang/LiveStarProで公開されている。
関連論文リスト
- Harnessing Streaming Video in the Wild [53.23721420272668]
VLM(Vision-Language Models)は、ビデオコールアシスタント、ライブコメンタリー、エンボディロボットなどのアプリケーションでビデオストリームを処理するためにますます必要とされる。
理想的なストリーミングシステムは、アクティブなインタラクション、長期メモリ、リアルタイム処理をサポートする必要がある。
既存のVLMはオフラインのビデオ理解に優れていますが、ストリーミング機能に欠け、ストリーミングデプロイメント専用のインフラストラクチャが欠如しています。
論文 参考訳(メタデータ) (2026-06-07T13:00:19Z) - Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models [25.48403877647779]
Think While Watchingは、メモリアンコールされたストリーミングビデオ推論フレームワークだ。
マルチターンインタラクション中の連続セグメントレベルのメモリを保存する。
シングルラウンド精度はStreamingBenchで2.6%、OVO-Benchで3.79%向上している。
論文 参考訳(メタデータ) (2026-03-12T13:13:50Z) - Event-VStream: Event-Driven Real-Time Understanding for Long Video Streams [11.495597616926274]
Event-VStreamは、連続した動画を、個別にセマンティックに一貫性のあるイベントのシーケンスとして表現する。
システムは、動き、意味、予測的手がかりを統合することで意味のある状態遷移を検出する。
システムは2時間のEgo4Dストリームで約70%のGPT-5の勝利率を維持している。
論文 参考訳(メタデータ) (2026-01-22T05:05:53Z) - LiveStar: Live Streaming Assistant for Real-World Online Video Understanding [67.71551356747948]
LiveStarは、適応的なストリーミングデコーディングを通じて常時オンのプロアクティブ応答を実現する、先駆的なライブストリーミングアシスタントである。
LiveStar は,(1) 可変長ビデオストリームに対する漸進的なビデオ言語アライメントの実現,動的に進化するフレームシーケンス間の時間的一貫性の維持,(2) 単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコードフレームワーク,(3) 最大端メモリ圧縮による10分以上のビデオのオンライン推論によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュを併用して1.53倍高速推論を実現する。
論文 参考訳(メタデータ) (2025-11-07T15:00:37Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。