論文の概要: Harnessing Streaming Video in the Wild
- arxiv url: http://arxiv.org/abs/2606.08615v1
- Date: Sun, 07 Jun 2026 13:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.300667
- Title: Harnessing Streaming Video in the Wild
- Title(参考訳): 野生で動画をストリーミングする「Harnessing」
- Authors: Dingyu Yao, Shuhuan Gu, Qingyi Si, Junhao Zhou, Chenxu Yang, Chuanyu Qin, Naibin Gu, Zheng Lin, Weiping Wang, Nan Duan, Jiaqi Wang,
- Abstract要約: VLM(Vision-Language Models)は、ビデオコールアシスタント、ライブコメンタリー、エンボディロボットなどのアプリケーションでビデオストリームを処理するためにますます必要とされる。
理想的なストリーミングシステムは、アクティブなインタラクション、長期メモリ、リアルタイム処理をサポートする必要がある。
既存のVLMはオフラインのビデオ理解に優れていますが、ストリーミング機能に欠け、ストリーミングデプロイメント専用のインフラストラクチャが欠如しています。
- 参考スコア(独自算出の注目度): 53.23721420272668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly required to process unbounded video streams in applications such as video-call assistants, live commentary, and embodied robots. An ideal streaming system should support proactive interaction, long-horizon memory, and real-time processing, while resting on a VLM backbone capable of handling diverse in-the-wild streaming tasks. However, existing VLMs excel at offline video understanding but fall short in streaming capabilities and lack dedicated infrastructure for streaming deployment. We address this gap on three fronts. (i) For backbone capability, we construct \textbf{Streaming-Train-248K}, a streaming dataset paired with a novel training objective for adapting VLMs to streaming interaction and understanding. (ii) For real-world deployment, we introduce \textbf{Streaming Harness}, a plug-and-play system that endows any VLM with three core abilities: proactive interaction (per-second response decisions), long-term memory (12-hour context retention), and real-time processing (sub-second latency). (iii) To drive continued community progress on streaming capabilities, we design \textbf{Streaming-Eval}, a benchmark that reflects models' capabilities across diverse in-the-wild scenarios. Extensive experiments demonstrate consistent gains from our approach across all core capabilities required for streaming video understanding. We will open-source our data, code, and benchmark to advance the community's shift from offline video understanding to deployable streaming intelligence.
- Abstract(参考訳): VLM(Vision-Language Models)は、ビデオコールアシスタント、ライブコメンタリー、エンボディロボットなどのアプリケーションにおいて、無制限のビデオストリームを処理するためにますます必要とされる。
理想的なストリーミングシステムは、多種多様なWildストリーミングタスクを処理できるVLMバックボーン上で、プロアクティブなインタラクション、長い水平メモリ、リアルタイム処理をサポートする必要がある。
しかしながら、既存のVLMはオフラインのビデオ理解に優れていますが、ストリーミング機能に欠け、ストリーミングデプロイメント専用のインフラストラクチャが欠如しています。
このギャップを3つの面で解決する。
(i)バックボーン機能のために,ストリーミングインタラクションと理解にVLMを適用するための新たなトレーニング目標と組み合わせたストリーミングデータセットである‘textbf{Streaming-Train-248K} を構築した。
i) 実世界の展開には,プロアクティブインタラクション(秒単位の応答決定),長期メモリ(12時間のコンテキスト保持),リアルタイム処理(秒単位のレイテンシ)という,3つのコアを持つVLMを実現するプラグイン・アンド・プレイシステムである \textbf{Streaming Harness} を導入する。
(iii) ストリーミング機能に関するコミュニティの継続的な進展を促進するため、さまざまなWildシナリオにまたがるモデルの能力を反映したベンチマークである‘textbf{Streaming-Eval} を設計しました。
大規模な実験は、ストリーミングビデオ理解に必要なすべてのコア機能に対して、我々のアプローチによる一貫した利益を示します。
オフラインのビデオ理解からデプロイ可能なストリーミングインテリジェンスへの移行を進めるため、私たちのデータ、コード、ベンチマークをオープンソースとして公開します。
関連論文リスト
- AURA: Always-On Understanding and Real-Time Assistance via Video Streams [37.80002196035961]
AURA(Always-On Understanding and Real-Time Assistance)は、エンドツーエンドのストリーミングビジュアルインタラクションフレームワークである。
これにより、統合されたVideoLLMがビデオストリームを継続的に処理し、リアルタイムの質問応答とプロアクティブ応答の両方をサポートする。
AURAはストリーミングベンチマークで最先端のパフォーマンスを実現し、2つの80Gアクセラレータ上で2FPSで動作するASRとTSを備えたリアルタイムデモシステムをサポートする。
論文 参考訳(メタデータ) (2026-04-05T16:53:46Z) - Thinking in Streaming Video [30.61790766076081]
ThinkStreamは、Watch-Think-Speakパラダイムに基づいた、ビデオ推論をストリーミングするためのフレームワークである。
Reasoning-Compressed Streaming Memory (RCSM) は、中間的推論トレースをコンパクトなセマンティックメモリとして扱う。
複数のストリーミングビデオベンチマークの実験では、ThinkStreamが既存のオンラインビデオモデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-03-13T12:33:36Z) - Streaming Video Instruction Tuning [36.380564553367954]
本稿では、汎用対話型アシスタントとして機能するリアルタイムストリーミングビデオLLMであるStreamoを紹介する。
Streamoは、リアルタイムナレーション、アクション理解、イベントキャプション、時間的イベントグラウンド、時間に敏感な質問応答など、幅広いストリーミングビデオタスクを実行する。
論文 参考訳(メタデータ) (2025-12-24T18:59:36Z) - Learning Streaming Video Representation via Multitask Training [38.83730146750222]
オフラインの動画理解とは異なり、ストリーミングビデオ理解にはフレーム単位でビデオストリームを処理し、過去の情報を保存し、低レイテンシの決定を行う能力が必要である。
本稿では,事前学習した視覚変換器に因果的注意を組み込むことにより,StreamFormerと呼ばれる新しいストリーミングビデオバックボーンを開発する。
オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:59:54Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。