論文の概要: Don't Pause: Streaming Video-Language Synchrony for Online Video Understanding
- arxiv url: http://arxiv.org/abs/2606.06991v1
- Date: Fri, 05 Jun 2026 07:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.614185
- Title: Don't Pause: Streaming Video-Language Synchrony for Online Video Understanding
- Title(参考訳): Don't Pause:オンラインビデオ理解のためにビデオランゲージ同期をストリーミングする
- Authors: Zhenyu Yang, Kairui Zhang, Shengsheng Qian, Weiming Dong, Changsheng Xu,
- Abstract要約: オンラインビデオ理解のための新しいパラダイム: SVLS(Streaming Video-Language Synchrony)を紹介する。
LyraVは、2つのコアイノベーションを備えた階層的なコントロールフレームワーク上に構築されたライブストリーミングアシスタントである。
まず、フレーム駆動トランジションコントローラ(FDTC)は、いつ話を続けるか、新しいレスポンスを開始するか、沈黙を保つか、といった、高レベルのセマンティックな決定を行います。
第二に、プラグアンドプレイの軽量予測モジュールであるStreaming Token Pacer (SToP)は、動的に言語生成率に適応し、視覚的コンテンツのペースにマッチする。
- 参考スコア(独自算出の注目度): 69.296913137409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online Video Large Language Models (Video-LLMs) have advanced toward seamless human-AI interaction through frame-by-frame processing and proactive responding. However, a critical challenge remains in streaming scenarios: existing models typically pause video perception while generating responses, breaking real-time video-language synchrony and causing stutters. To address this, we introduce a novel paradigm for online video understanding: Streaming Video-Language Synchrony (SVLS), and present LyraV, a live streaming assistant built upon a hierarchical control framework with two core innovations. First, the Frame-Driven Transition Controller (FDTC), a training-free verification-based finite-state machine, makes high-level semantic decisions on when to continue speaking, start a new response, or stay silent. Second, the Streaming Token Pacer (SToP), a plug-and-play lightweight predictive module, dynamically adapts the language generation rate to match the pace of the visual content. Concretely, LyraV performs \emph{per-frame incremental, sub-budget decoding}: within each frame interval it emits only a small chunk of tokens that fits the real-time budget, so perception is never blocked for a full sentence. Together, these components enable LyraV to seamlessly interleave incoming video frames with generated word tokens, achieving a fine-grained synchrony. Extensive experiments conducted on five online and three offline benchmarks demonstrate that LyraV preserves the backbone's general understanding ability while substantially improving streaming synchrony and narrative fluency, delivering a 98.29\% synchrony with video playback and a real-time processing speed of 3.89 FPS. Interestingly, we observe an empirical capability in LyraV: dynamic reasoning over streaming tokens, enabling continuous interpretation and "thinking" alongside visual input.
- Abstract(参考訳): オンラインビデオ大言語モデル(ビデオ-LLM)は、フレーム・バイ・フレーム処理とプロアクティブ・レスポンスを通じて、シームレスな人間-AIインタラクションに向けて進歩している。
既存のモデルでは、応答を生成しながらビデオの知覚を一時停止し、リアルタイムのビデオ言語同期を破り、混乱を引き起こすのが一般的である。
オンラインビデオ理解のための新しいパラダイムとして,SVLS(Streaming Video-Language Synchrony)と,2つのコアイノベーションを備えた階層的制御フレームワーク上に構築されたライブストリーミングアシスタントLyraVを紹介する。
まず、フレーム駆動トランジションコントローラ(FDTC)は、トレーニング不要な検証ベースの有限状態マシンで、いつ話を続けるか、新しい応答を開始するか、沈黙し続けるか、といった、高レベルな意味決定を行う。
第二に、プラグアンドプレイの軽量予測モジュールであるStreaming Token Pacer (SToP)は、動的に言語生成率に適応し、視覚的コンテンツのペースにマッチする。
具体的には、LyraV は \emph{per-frame incremental, sub-budget decoding} を実行する: 各フレーム間隔内では、リアルタイムの予算に適合するトークンの小さな塊だけを出力するので、完全な文では知覚がブロックされない。
これらのコンポーネントを組み合わせることで、LyraVは入ってくるビデオフレームと生成されたワードトークンをシームレスにインターリーブし、きめ細かい同期を実現することができる。
5つのオンラインおよび3つのオフラインベンチマークで実施された大規模な実験は、LyraVがバックボーンの一般的な理解能力を保ちながら、ストリーミング同期と物語流速を大幅に改善し、98.29\%の同期とビデオ再生、リアルタイム処理速度が3.89 FPSであることを示した。
興味深いことに、LyraVの実証的な能力として、ストリーミングトークンを動的に推論し、連続的な解釈を可能にし、視覚的な入力と共に「考える」ことができる。
関連論文リスト
- Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously [69.0264594684213]
Video Streaming Thinking (VST) はビデオ理解のための新しいパラダイムである。
ストリーミング中のビデオクリップの推論を起動するメカニズムを視聴しながら思考をサポートする。
VSTはリアルタイム応答性を維持しながら、タイムリーな理解とコヒーレント認知を改善する。
論文 参考訳(メタデータ) (2026-03-12T17:59:51Z) - TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - LiveStar: Live Streaming Assistant for Real-World Online Video Understanding [67.71551356747948]
LiveStarは、適応的なストリーミングデコーディングを通じて常時オンのプロアクティブ応答を実現する、先駆的なライブストリーミングアシスタントである。
LiveStar は,(1) 可変長ビデオストリームに対する漸進的なビデオ言語アライメントの実現,動的に進化するフレームシーケンス間の時間的一貫性の維持,(2) 単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコードフレームワーク,(3) 最大端メモリ圧縮による10分以上のビデオのオンライン推論によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュを併用して1.53倍高速推論を実現する。
論文 参考訳(メタデータ) (2025-11-07T15:00:37Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。
ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。
極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T17:34:06Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。