論文の概要: Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
- arxiv url: http://arxiv.org/abs/2606.25041v1
- Date: Tue, 23 Jun 2026 18:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.109616
- Title: Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
- Title(参考訳): Wan-Streamer v0.1: エンドツーエンドのインタラクティブファンデーションモデル
- Authors: Lianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi,
- Abstract要約: Wan-Streamerは、ローストリーミングインタラクションのためのエンドツーエンドのインタラクティブ基盤モデルである。
音声とビデオは、入力と出力の両方を単一のTransformerシーケンスでシームレスにモデル化する。
およそ200msのモデル側レスポンスレイテンシと、合計550msのインタラクションレイテンシを実現している。
- 参考スコア(独自算出の注目度): 66.03724575571962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Wan-Streamer, a native-streaming, end-to-end interactive foundation model designed from the ground up for real-time, low-latency, full-duplex audio-visual interaction. Wan-Streamer seamlessly models language, audio, and video as both input and output within a single Transformer, where the sequence is represented as interleaved visual, audio, and text input tokens together with visual, audio, and text output tokens, coordinated by block-causal attention for incremental streaming. Unlike cascaded interactive systems that rely on separate VAD, ASR, language, TTS, audio-driven animation, or video-generation modules, Wan-Streamer does not rely on external language, speech, avatar, or video-generation modules: perception, reasoning, generation, response timing, turn management, and cross-modal synchronization are learned jointly within one unified model, reducing pipeline latency and error accumulation. To support natural audio-visual responsiveness, we redesign the entire stack around streamability, including causal encoders, causal decoders, block-causal attention, and low-latency multimodal token scheduling, enabling streaming units as short as 160 ms at 25 fps. Wan-Streamer achieves approximately 200 ms model-side response latency and approximately 550 ms total interaction latency when combined with 350 ms bidirectional network latency, supporting sub-second duplex audio-visual communication. These results position Wan-Streamer as a unified, end-to-end, multimodal interactive foundation model for low-latency streaming interaction.
- Abstract(参考訳): We present Wan-Streamer, a native-streaming, end-to-end Interactive foundation model designed to real-time, low-latency, full-duplex audio-visual interaction。
Wan-Streamerは言語、音声、ビデオを単一のトランスフォーマー内で入力と出力の両方としてシームレスにモデル化し、シーケンスはインターリーブされたビジュアル、オーディオ、テキスト入力トークンとして表現され、ビジュアル、オーディオ、テキスト出力トークンとともに、インクリメンタルストリーミングのためにブロック・カウサルの注意によって調整される。
別個のVAD、ASR、言語、TS、オーディオ駆動アニメーション、ビデオ生成モジュールに依存するケースケードの対話システムとは異なり、Wan-Streamerは外部言語、音声、アバター、あるいはビデオ生成モジュールに依存しない。
自然な音声・視覚応答性をサポートするため,カソーサルエンコーダ,因果デコーダ,ブロック・カソーサルアテンション,低遅延マルチモーダルトークンスケジューリングなど,ストリーム性を中心としたスタック全体を再設計し,25fpsで160msのストリーミングを可能とした。
Wan-Streamerは、350msの双方向ネットワーク遅延と組み合わせることで、約200msのモデル側応答レイテンシと約550msのインタラクションレイテンシを実現し、サブ秒間二重オーディオ・ビジュアル通信をサポートする。
これらの結果は、Wan-Streamerを低レイテンシなストリーミングインタラクションのための統一、エンドツーエンド、マルチモーダルインタラクティブ基盤モデルとして位置づける。
関連論文リスト
- Audio Interaction Model [102.4354125819644]
今日のLALM(Large Audio Language Models)はオフラインであり、ストリーミングオーディオモデルはASRや音声チャットのような単一のタスクのみを処理する。
それは、常時オンの知覚・認知応答ループを通じて、音、環境、指示をリアルタイムで聞き、リアルタイムで反応するモデルである。
我々は,この仕組みをオーディオインタラクションモデルとして定式化し,オフラインタスクの実行を継続する統合ストリーミングモデルであるAudio-Interactionで実現した。
論文 参考訳(メタデータ) (2026-06-03T17:26:11Z) - OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants [43.2907783462394]
音声-視覚的ストリームに対するネイティブ推論によって評価されたリアルタイム全言語モデルのストリーミングベンチマーク。
本研究では,対話型品質タイムラインF1,割り込み診断スイート,368の1QnAスロットを用いて,応答の正しさ,タイミング,不正出力の割り込み,コンテキスト継続性を評価した。
論文 参考訳(メタデータ) (2026-05-26T02:49:47Z) - MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction [76.4461698685681]
Mini-o 4.5は、人間レベルのリアルタイムストリーミングインタラクションに向けた最新の取り組みです。
Omni-CPMは、オムニモードの知覚と出力を共有時間軸に沿って整列する統合ストリーミングフレームワークである。
合計9Bパラメータで、Mini-o 4.5は視力計算能力においてGemini 2.5 Flashにアプローチし、最先端のオープンな計算性能を提供する。
論文 参考訳(メタデータ) (2026-04-30T04:05:43Z) - Voxtral Realtime [134.66962524291424]
Voxtral Realtimeはストリーミング自動音声認識モデルである。
オフラインの書き込み品質は、秒以下のレイテンシで一致します。
私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
論文 参考訳(メタデータ) (2026-02-11T19:17:10Z) - Real-Time Streamable Generative Speech Restoration with Flow Matching [35.33575179870606]
Stream$.$FMは、32ミリ秒(ms)のアルゴリズム待ち時間と48ミリ秒の総待ち時間を持つフレーム因果フローベースの生成モデルである。
現在利用可能なGPUでは,高品質なストリーミング生成音声処理が実現可能であることを示す。
論文 参考訳(メタデータ) (2025-12-22T14:41:17Z) - X-Streamer: Unified Human World Modeling with Audiovisual Interaction [36.50697656708077]
X-Streamerは、テキスト、音声、ビデオ間の無限の相互作用が可能なデジタルヒューマンエージェントを構築するためのフレームワークである。
中心となるのは、マルチモーダル理解と生成を統一するThinker-Actorデュアルトランスフォーマーアーキテクチャである。
X-Streamerは2つのA100 GPU上でリアルタイムに動作し、一貫したビデオチャット体験を数時間持続する。
論文 参考訳(メタデータ) (2025-09-25T20:53:27Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。