論文の概要: End-to-End Training for Discrete Token LLM based TTS System
- arxiv url: http://arxiv.org/abs/2606.09234v1
- Date: Mon, 08 Jun 2026 09:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.882065
- Title: End-to-End Training for Discrete Token LLM based TTS System
- Title(参考訳): 離散トークンLLMを用いたTSシステムのためのエンドツーエンドトレーニング
- Authors: Changfeng Gao, Yong Ren, Jun Yuan, Ye Bai, Zhao You, ShiDong Shang,
- Abstract要約: 本稿では,音声トークン化装置,大規模言語モデル,フローマッチングモデルのトレーニングを統一する完全エンドツーエンド(E2E)最適化フレームワークを提案する。
実験結果から,我々のフレームワークは,連続的にカスケードベースラインを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 12.016326342176319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent state-of-the-art (SOTA) text-to-speech (TTS) systems typically adopt a cascaded pipeline consisting of a speech tokenizer, an autoregressive large language model (LLM), and a diffusion based flow-matching (FM) model, with these components trained independently. In this paper, we propose a fully end-to-end (E2E) optimization framework that unifies the training of the speech tokenizer, LLM, FM model, and an additional reward model (RM). Specifically, we first jointly optimize the tokenizer using multi-task objectives derived from reconstruction for FM, next-token prediction for LLM, and multi recognition task for RM. This joint training encourages the discrete speech token space to capture acoustically and semantically salient information that is better tailored to TTS. We then further optimize the LLM using downstream reconstruction and recognition by FM and RM, which reduces inference-time mismatch and steers the LLM toward more preferred generations. Experimental results show that our E2E framework consistently outperforms cascaded baselines. On the Seed-TTS-Eval benchmark, our system achieves a word error rate (WER) of 0.78% and 1.56%, a new SOTA result with a 0.6B-parameter LLM and 0.5B-parameter FM model. These results validate that holistic E2E optimization is critical for improving discrete-token-based TTS systems with a much simpler training pipeline.
- Abstract(参考訳): 最近のSOTA (State-of-the-art) text-to-speech (TTS) システムは、通常、音声トークン化器、自己回帰型大言語モデル(LLM)、拡散型フローマッチング(FM)モデルからなるカスケードパイプラインを採用しており、これらのコンポーネントは独立に訓練されている。
本稿では,音声トークン化装置,LLM,FMモデル,付加報酬モデル(RM)のトレーニングを統一する完全エンドツーエンド(E2E)最適化フレームワークを提案する。
具体的には、まず、FMの再構成、LLMの次トーケン予測、RMのマルチ認識タスクから導かれるマルチタスク目的を用いて、トークン化を共同で最適化する。
この共同訓練により、離散音声トークン空間は、TSに適合した音響的かつ意味論的に有意な情報をキャプチャすることを奨励する。
さらに、FMとRMによる下流再構成と認識を用いてLLMをさらに最適化し、推論時間のミスマッチを低減し、より好ましい世代に向けてLLMを操る。
実験の結果,我々のE2Eフレームワークは,カスケードベースラインを一貫して上回っていることがわかった。
Seed-TTS-Eval ベンチマークでは,単語誤り率 (WER) が 0.78% と 1.56%,SOTA が 0.6B パラメータ LLM と 0.5B パラメータ FM モデルで得られた。
これらの結果は、より単純なトレーニングパイプラインで離散トークンベースのTSシステムを改善するために、総合的なE2E最適化が重要であることを証明している。
関連論文リスト
- Rethinking Entropy Allocation in LLM-based ASR: Understanding the Dynamics between Speech Encoders and LLMs [17.167595029948576]
学習パラダイムが音声エンコーダとLLM間のエントロピー削減をどのように割り当てるかを特徴付けるための3つの指標を提案する。
本稿では,パラメータ効率とロバストネス幻覚を最適化した,能力境界認識に基づく多段階学習戦略を提案する。
マンダリンと英語のベンチマーク実験により,2.3Bパラメータのみを用いた最先端モデルとの競合性能が得られた。
論文 参考訳(メタデータ) (2026-04-09T09:07:52Z) - JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency [56.46698214215968]
JoyAI-LLM Flashは、強力なパフォーマンスとトークン効率のトレードオフを再定義するために設計された、効率的なMixture-of-Experts (MoE)言語モデルである。
JoyAI-LLM Flashは20兆トークンの巨大なコーパスで事前トレーニングされており、厳格なポストトレーニングパイプラインを通じてさらに最適化されている。
論文 参考訳(メタデータ) (2026-04-03T13:52:38Z) - PROST-LLM: Progressively Enhancing the Speech-to-Speech Translation Capability in LLMs [13.891322931352649]
ProST-LLM(PROgressive Speech-to-Speech Translation)を提案する。
まず,LLMをCVSSコーパスで微調整し,設計した3タスク学習とモダリティの連鎖を利用して初期性能を向上する。
最後に、これらの選好ペアは、モデルのS2ST機能をさらに強化するために、選好最適化に使用される。
論文 参考訳(メタデータ) (2026-01-23T10:16:13Z) - Bridging the gap: A comparative exploration of Speech-LLM and end-to-end architecture for multilingual conversational ASR [16.090902570653803]
本稿では、細調整されたWhisperとmHuBERTエンコーダをLLMと組み合わせたLLMベースのASRフレームワークを提案する。
CER/WERは10.69%で、上位1位にランクインしている。
論文 参考訳(メタデータ) (2026-01-04T10:08:53Z) - Transducer-Llama: Integrating LLMs into Streamable Transducer-based Speech Recognition [26.79555533538622]
本稿では,大規模言語モデル(LLM)をFactized Transducer(FT)モデルに統合する新しいモデルアーキテクチャであるTransducer-Llamaを提案する。
提案されたストリーミングTransducer-Llamaアプローチは、強いFTベースラインに17%の相対的なWER削減(WERR)、RNN-Tベースラインに32%のWERRを与えた。
論文 参考訳(メタデータ) (2024-12-21T03:35:49Z) - Understanding Forgetting in LLM Supervised Fine-Tuning and Preference Learning - A Convex Optimization Perspective [55.66517396157806]
オープンソースLLMのポストトレーニングにおいて広く採用されているアプローチは、SFTとRLHF/DPOのシーケンシャルな実行である。
これはSFTとRLHF/DPOのトレードオフの点において最適である。
本稿では,理論収束保証と逐次後学習フレームワークの性能を実証的に向上させる,実践的な後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:38:41Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [65.04475956174959]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLにおける重要な課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータの敵ジャミングに対する感受性である。
本稿では,無線ネットワーク上での大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いたレジリエンスSFLのための物理層フレームワークを開発する。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。