論文の概要: Bagpiper-TTS: Natural Language Guided Universal Speech Synthesis
- arxiv url: http://arxiv.org/abs/2606.22811v1
- Date: Mon, 22 Jun 2026 03:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:24:35.57724
- Title: Bagpiper-TTS: Natural Language Guided Universal Speech Synthesis
- Title(参考訳): Bagpiper-TTS: 自然言語ガイドによるユニバーサル音声合成
- Authors: Jinchuan Tian, Haoran Wang, Siddhant Arora, Takashi Maekaku, Keita Goto, Jin Sakuma, Yusuke Shinohara, Chao-Han Huck Yang, Shinji Watanabe,
- Abstract要約: Bagpiper-TTSは、多様な自然言語ユーザー要求を扱う普遍的な音声合成システムである。
我々のモデルは、古典的TSアプリケーション以外の幅広いタスクを本質的にサポートしています。
- 参考スコア(独自算出の注目度): 73.41484972991475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical TTS systems typically rely on rigid input formats and predefined metadata slots, limiting their ability to fulfill flexible user requirements. This paper introduces Bagpiper-TTS, a universal speech synthesis system that deals with diverse natural language user requests. Given a natural language prompt, Bagpiper-TTS first reasons over the users' intent to derive a rich caption, i.e., a comprehensive textual blueprint encompassing both transcription and nuanced metadata. Subsequently, this caption guides the synthesis of the target speech. Our model inherently supports a broad spectrum of tasks besides classical TTS applications, including multi-talker, intent-to-speech, role-play synthesis, singing voice synthesis, and more. Experimental results demonstrate that Bagpiper-TTS achieves an 1.7% Word Error Rate (WER) on the Seed-TTS-Eval benchmark and match the performance of dedicated models in both LLM-as-a-judge and human subjective evaluations across multiple applications.
- Abstract(参考訳): 古典的なTSシステムは、通常、厳格な入力形式と事前に定義されたメタデータスロットに依存し、柔軟性のあるユーザー要求を満たす能力を制限する。
本稿では,多様な自然言語ユーザ要求を処理する汎用音声合成システムであるBagpiper-TTSを紹介する。
自然言語のプロンプトが与えられた後、Bagpiper-TTSは、ユーザーがリッチなキャプション、すなわち、転写とニュアンス付きメタデータの両方を含む包括的なテキスト青写真を引き出す意図について最初に言及した。
その後、このキャプションはターゲット音声の合成を導く。
我々のモデルは本質的に、マルチトーカー、インテント・トゥ・音声、ロールプレイ合成、歌声合成など、古典的TTSアプリケーション以外の幅広いタスクをサポートする。
実験の結果,Bagpiper-TTS は Seed-TTS-Eval ベンチマークで1.7% ワード誤り率 (WER) を達成した。
関連論文リスト
- CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech [66.29338461991715]
CapTTS関連の一連のタスクのための新しいベンチマークであるCapSpeechを紹介する。
CapSpeechは、1000万以上の機械アノテーション付きオーディオキャプチャーペアと、約0.36万の人間アノテーション付きオーディオキャプチャーペアで構成されている。
CapSpeech上で自己回帰モデルと非自己回帰モデルの両方を用いて包括的実験を行う。
論文 参考訳(メタデータ) (2025-06-03T13:28:55Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - Text-To-Speech Synthesis In The Wild [76.71096751337888]
我々は、VoxCeleb1データセットに適用された完全に自動化されたパイプラインを通じて生成されるTS In the Wildデータセットを紹介します。
TITW-Hardは、生のVoxCeleb1データの転写、セグメンテーション、選択から派生したTITW-Hardと、DNSMOSに基づいたさらなる拡張とデータ選択を含むTITW-Easyの2つのトレーニングセットで構成されている。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning [12.069474749489897]
我々は、LibriTTS-Rに基づく新しいコーパスであるLibriTTS-Pを紹介し、発話スタイルの発話レベル記述(即ち、プロンプト)と話者特性の話者レベルプロンプトを含む。
スタイルキャプションタスクの結果から, LibriTTS-P を用いたモデルは, 従来のデータセットを用いたモデルよりも2.5倍正確な単語を生成することがわかった。
論文 参考訳(メタデータ) (2024-06-12T07:49:21Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。