論文の概要: Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation
- arxiv url: http://arxiv.org/abs/2606.13322v1
- Date: Thu, 11 Jun 2026 13:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.812684
- Title: Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation
- Title(参考訳): LLMに基づく並列テキスト生成による低レイテンシリアルタイムオーディオゲーム解説システム
- Authors: Ryota Kawamatsu, Anum Afzal, Yuki Saito, Shinnosuke Takamichi, Graham Neubig, Katsuhito Sudoh, Hiroya Takamura, Tatsuya Ishigaki,
- Abstract要約: 本稿では,ライブゲームプレイビデオから直接音声コメントを生成する低遅延リアルタイム音声ゲーム解説システムを提案する。
従来のパイプラインはフレームをキャプチャし、テキストを生成し、発話毎に順次音声を合成し、音声再生が完了するまで次世代を要求しない。
本システムでは、音声再生と並行してテキスト生成を行い、複数の候補発話を事前にバッファリングすることで、再生境界での即時合成を可能にする。
- 参考スコア(独自算出の注目度): 59.178597408747095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a low-latency real-time audio game commentary system that generates spoken commentary directly from live gameplay video. In this end-to-end setting, a key bottleneck is accumulated waiting time; conventional pipelines capture frames, generate text, and synthesize speech sequentially for each utterance, and do not request the next generation until speech playback has completed. This strict sequentiality causes long and unnatural silence between utterances. To address this latency bottleneck, our system runs text generation in parallel with speech playback and buffers multiple candidate utterances ahead of time, enabling immediate synthesis at playback boundaries. Experiments on fast-paced game videos show that our parallel design reduces the mean inter-utterance silence from 9.6 seconds to 0.3 seconds compared to sequential baselines. It also improves similarity to professional speaking--silence timing patterns by over 40 %, and a user study with 120 experienced game players confirms significantly improved perceived speaking rhythm. Our demo video is available at: https://youtu.be/pmrRUlvav8M.
- Abstract(参考訳): 本稿では,ライブゲームプレイビデオから直接音声コメントを生成する低遅延リアルタイム音声ゲーム解説システムを提案する。
このエンドツーエンド設定では、キーボトルネックが待ち時間に蓄積され、従来のパイプラインはフレームをキャプチャし、テキストを生成し、発話毎に順次音声を合成し、音声再生が完了するまで次世代を要求しない。
この厳密な順序性は、発話の間に長く不自然な沈黙を引き起こす。
このレイテンシのボトルネックに対処するため,本システムは音声再生と並行してテキスト生成を行い,複数の候補発声を事前にバッファリングし,即時生成を可能にする。
高速ペースのゲームビデオの実験では、我々の並列設計により、平均発話間沈黙がシーケンシャルベースラインに比べて9.6秒から0.3秒に減少することが示された。
また、プロの発話リズムパターンとの類似性も40%以上向上し、120人の経験のあるゲームプレーヤーによるユーザスタディでは、認識された発話リズムが著しく改善されたことが確認された。
私たちのデモビデオは、https://youtu.be/pmrRUlvav8M.comで公開されています。
関連論文リスト
- Don't Pause: Streaming Video-Language Synchrony for Online Video Understanding [69.296913137409]
オンラインビデオ理解のための新しいパラダイム: SVLS(Streaming Video-Language Synchrony)を紹介する。
LyraVは、2つのコアイノベーションを備えた階層的なコントロールフレームワーク上に構築されたライブストリーミングアシスタントである。
まず、フレーム駆動トランジションコントローラ(FDTC)は、いつ話を続けるか、新しいレスポンスを開始するか、沈黙を保つか、といった、高レベルのセマンティックな決定を行います。
第二に、プラグアンドプレイの軽量予測モジュールであるStreaming Token Pacer (SToP)は、動的に言語生成率に適応し、視覚的コンテンツのペースにマッチする。
論文 参考訳(メタデータ) (2026-06-05T07:29:20Z) - StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration [16.23723735702324]
StreamCharは,短時間のオーディオビデオから長期のオーケストレーションを分離するストリーミングフレームワークである。
ショートクリップおよびロングホライゾンプロトコルの実験は、StreamCharが1つのH100 GPU上でリアルタイムに実行されることを示している。
論文 参考訳(メタデータ) (2026-05-25T10:04:52Z) - StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model [73.30619724574642]
音声駆動型3D顔アニメーションは、音声入力によって駆動される現実的で同期された顔の動きを生成することを目的としている。
近年,3次元顔アニメーションに音声条件拡散モデルが採用されている。
本稿では,ストリーミング方式で音声を処理する自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:55:16Z) - StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。