論文の概要: dots.tts Technical Report
- arxiv url: http://arxiv.org/abs/2606.07080v1
- Date: Fri, 05 Jun 2026 09:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.664431
- Title: dots.tts Technical Report
- Title(参考訳): dots.ttsテクニカルレポート
- Authors: Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu,
- Abstract要約: dots.ttsは継続的自己回帰型テキスト音声基礎モデルである。
我々はAudioVAEを複数の目的で訓練し、意味論的に構造化され、予測に親しみやすい連続音声空間を構築する。
フローマッチングヘッドに報酬のない自己補正後トレーニングを適用して、ロバスト性および音響品質をさらに向上する。
- 参考スコア(独自算出の注目度): 21.076643922579517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, dots.tts achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, dots.tts also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.
- Abstract(参考訳): 2Bパラメトリック連続自己回帰テキスト音声合成(TTS)基盤モデルであるdots.ttsを提案する。
既存の継続的自己回帰モデルと比較して、私たちの重要なイノベーションは3倍です。
まず,複数の目的を持ったAudioVAEを訓練し,意味論的に構造化され,予測に親しみやすい連続音声空間を構築する。
第2に、フローマッチングヘッドにおけるフルヒストリーコンディショニングを用いて、長距離整合性を維持し、生成時のドリフトを低減する。
第3に、フローマッチングヘッドに報酬のない自己補正後トレーニングを適用し、ロバスト性および音響品質をさらに向上させる。
大規模多言語コーパスで訓練した後、dots.tts は Seed-TTS-Eval 上で最高の平均性能を達成し、WER は 0.94%/1.30%/6.60%、SIM スコアは zh/en/zh-hard テストセットで 81.0/77.1/79.5 である。
他のベンチマークでは、dots.ttsは一貫してオープンソースの最先端のパフォーマンスを示し、強力な生成安定性、音声のクローニング能力、感情的な表現力を示す。
さらに, CFG 対応 MeanFlow 蒸留の適用により, 出力流速85/54msの低遅延音声生成が可能となる。
再現可能なリサーチと実践的なデプロイメントを容易にするため、トレーニングコードと推論コード、事前訓練後、トレーニング後、MeanFlowで蒸留されたチェックポイントを、Apache 2.0ライセンスの下でリリースしています。
関連論文リスト
- DiT-Flow: Speech Enhancement Robust to Multiple Distortions based on Flow Matching in Latent Space and Diffusion Transformers [22.00618863958246]
DiT-Flowは、遅延拡散変換器(DiT)のバックボーン上に構築されたフローマッチングベースのSEフレームワークである。
DiT-Flowは、最先端のジェネレーティブSEモデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-03-23T06:03:58Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data [55.65426108082807]
Uni-MoE-2.0-Omniをスクラッチから3つのコアコントリビューションで構築しています。
雑用的な理解や、画像、テキスト、音声を生成することができる。
論文 参考訳(メタデータ) (2025-11-16T14:10:55Z) - DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。
本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。
そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文 参考訳(メタデータ) (2023-09-19T16:36:33Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。