論文の概要: Streaming T5-based Text-to-Speech Synthesis with Limited Lookahead
- arxiv url: http://arxiv.org/abs/2606.21882v1
- Date: Sat, 20 Jun 2026 04:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:27:16.134888
- Title: Streaming T5-based Text-to-Speech Synthesis with Limited Lookahead
- Title(参考訳): 限られたルックアヘッドを用いたT5テキスト音声合成
- Authors: Muyang Du, Jason Roche, Junjie Lai,
- Abstract要約: 本稿では,低レイテンシで単語単位のインクリメンタル音声合成が可能なT5-TTSのストリーミング版であるS5-TTSを提案する。
S5-TTSは、最初の数ワードを受信した直後に音声を生成し始め、エンドツーエンドの応答遅延を大幅に低減する。
実験によると、S5-TTSはフルコンテキストのT5-TTSに匹敵する品質を実現し、高い話者類似性を持つゼロショット合成をサポートし、実用的なAIシステムのエンドツーエンドレイテンシを著しく低減している。
- 参考スコア(独自算出の注目度): 4.740962650068887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming text-to-speech synthesis in cascaded LLM-TTS systems still faces latency challenges as most TTS models require full context before initiating generation. We present S5-TTS, a streaming variant of T5-TTS that enables low-latency, word-by-word incremental speech synthesis through encoder-decoder language modeling and monotonic alignment learning. S5-TTS begins generating speech immediately after receiving the first few words, substantially reducing end-to-end response latency. To maintain quality under limited lookahead, we introduce a lookahead-causal masking mechanism with Conv-based auxiliary attention that preserves intelligibility and speaker similarity, and employ interleaved multi-source distillation to further restore naturalness. Experiments show that S5-TTS achieves comparable quality to full-context T5-TTS, supports zero-shot synthesis with high speaker similarity, and significantly reduces end-to-end latency for practical conversational AI systems.
- Abstract(参考訳): LLM-TTSシステムにおけるテキスト音声合成のストリーミングは、ほとんどのTSモデルでは生成を開始する前に完全なコンテキストを必要とするため、まだレイテンシの問題に直面している。
我々は、エンコーダ・デコーダ言語モデリングと単調アライメント学習により、低レイテンシで単語ごとのインクリメンタル音声合成を可能にするT5-TTSのストリーミング版であるS5-TTSを提案する。
S5-TTSは、最初の数ワードを受信した直後に音声を生成し始め、エンドツーエンドの応答遅延を大幅に低減する。
限定的なルックアヘッド下で品質を維持するため,コンブをベースとした補助的注意力を備えたルックアヘッド・カウサルマスキング機構を導入し,自然性を更に回復させるためにインターリーブ型多ソース蒸留を用いた。
実験によると、S5-TTSはフルコンテキストのT5-TTSに匹敵する品質を実現し、高い話者類似性を持つゼロショット合成をサポートし、実用的な対話型AIシステムにおけるエンドツーエンドのレイテンシを大幅に低減する。
関連論文リスト
- Flamed-TTS: Flow Matching Attention-Free Models for Efficient Generating and Dynamic Pacing Zero-shot Text-to-Speech [2.5964779217812057]
Flamed-TTSは、低計算コスト、低レイテンシ、高音声忠実度と豊富な時間的多様性を強調する新しいゼロショットテキスト音声合成フレームワークである。
本研究では,Flamed-TTSが最先端モデルを超え,可知性,自然性,話者の類似性,音響特性の保存,動的ペースについて検討した。
論文 参考訳(メタデータ) (2025-10-03T09:36:55Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System [10.156665325783583]
SupertonicTTSは、効率的な音声合成のために設計された新しい音声合成システムである。
我々は、軽量アーキテクチャを実現するために、低次元の潜伏空間、潜伏空間の時間圧縮、およびConvNeXtブロックを用いる。
実験の結果、SupertonicTTSは、44Mパラメータしか持たない現代のゼロショットTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-29T14:59:32Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。