Fugu-MT 論文翻訳(概要): Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation

論文の概要: Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation

arxiv url: http://arxiv.org/abs/2606.13322v1
Date: Thu, 11 Jun 2026 13:15:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.812684
Title: Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation
Title（参考訳）: LLMに基づく並列テキスト生成による低レイテンシリアルタイムオーディオゲーム解説システム
Authors: Ryota Kawamatsu, Anum Afzal, Yuki Saito, Shinnosuke Takamichi, Graham Neubig, Katsuhito Sudoh, Hiroya Takamura, Tatsuya Ishigaki,
Abstract要約: 本稿では,ライブゲームプレイビデオから直接音声コメントを生成する低遅延リアルタイム音声ゲーム解説システムを提案する。従来のパイプラインはフレームをキャプチャし、テキストを生成し、発話毎に順次音声を合成し、音声再生が完了するまで次世代を要求しない。本システムでは、音声再生と並行してテキスト生成を行い、複数の候補発話を事前にバッファリングすることで、再生境界での即時合成を可能にする。
参考スコア（独自算出の注目度）: 59.178597408747095
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a low-latency real-time audio game commentary system that generates spoken commentary directly from live gameplay video. In this end-to-end setting, a key bottleneck is accumulated waiting time; conventional pipelines capture frames, generate text, and synthesize speech sequentially for each utterance, and do not request the next generation until speech playback has completed. This strict sequentiality causes long and unnatural silence between utterances. To address this latency bottleneck, our system runs text generation in parallel with speech playback and buffers multiple candidate utterances ahead of time, enabling immediate synthesis at playback boundaries. Experiments on fast-paced game videos show that our parallel design reduces the mean inter-utterance silence from 9.6 seconds to 0.3 seconds compared to sequential baselines. It also improves similarity to professional speaking--silence timing patterns by over 40 %, and a user study with 120 experienced game players confirms significantly improved perceived speaking rhythm. Our demo video is available at: https://youtu.be/pmrRUlvav8M.
Abstract（参考訳）: 本稿では,ライブゲームプレイビデオから直接音声コメントを生成する低遅延リアルタイム音声ゲーム解説システムを提案する。このエンドツーエンド設定では、キーボトルネックが待ち時間に蓄積され、従来のパイプラインはフレームをキャプチャし、テキストを生成し、発話毎に順次音声を合成し、音声再生が完了するまで次世代を要求しない。この厳密な順序性は、発話の間に長く不自然な沈黙を引き起こす。このレイテンシのボトルネックに対処するため,本システムは音声再生と並行してテキスト生成を行い,複数の候補発声を事前にバッファリングし,即時生成を可能にする。高速ペースのゲームビデオの実験では、我々の並列設計により、平均発話間沈黙がシーケンシャルベースラインに比べて9.6秒から0.3秒に減少することが示された。また、プロの発話リズムパターンとの類似性も40%以上向上し、120人の経験のあるゲームプレーヤーによるユーザスタディでは、認識された発話リズムが著しく改善されたことが確認された。私たちのデモビデオは、https://youtu.be/pmrRUlvav8M.comで公開されています。

論文の概要: Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation

関連論文リスト