論文の概要: UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction
- arxiv url: http://arxiv.org/abs/2606.11681v2
- Date: Thu, 11 Jun 2026 05:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.600739
- Title: UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction
- Title(参考訳): UR-BERT:Universal Romanization and Speech Token Predictionによる多言語TSのためのテキストエンコーダのスケーリング
- Authors: Sangmin Lee, Eekgyun Ahn, Woongjib Choi, Hong-Goo Kang,
- Abstract要約: 代用文字起こし音声エンコーダUR-BERTを提案する。
UR-BERTは495の言語にスケールし、多様な書記系を共通ロマン化表現に統一する。
UR-BERT上に構築されたTSシステムは、最近のテキストエンコーダのベースラインを幅広い言語で一貫して上回っている。
- 参考スコア(独自算出の注目度): 19.354482771440306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose UR-BERT, a Romanized transcription-based text-to-speech (TTS) encoder for massively multilingual TTS systems. Conventional grapheme-to-phoneme (G2P)-based approaches are limited to around 100 languages due to the availability of reliable G2P resources. In contrast, UR-BERT scales to 495 languages by unifying diverse writing systems into a shared Romanization representation. To further enhance phonetic fidelity and text-speech alignment, we introduce a speech token prediction objective during training, which encourages the encoder to learn speech-aware phonetic representations in a data-efficient manner. Experiments show that TTS systems built on UR-BERT consistently outperform recent text encoder baselines across a wide range of languages and resource conditions, and demonstrate strong generalization to unseen languages.
- Abstract(参考訳): 我々は,多言語 TTS システムのためのローマ字文字起こし (TTS) エンコーダ UR-BERT を提案する。
従来のGrapheme-to-phoneme(G2P)ベースのアプローチは、信頼性の高いG2Pリソースが利用可能であるため、100言語程度に制限されている。
対照的にUR-BERTは、多様な書記系を共通ロマン化表現に統一することで、495の言語にスケールする。
音声の忠実度とテキスト・音声のアライメントをさらに向上するため、訓練中に音声トークン予測目標を導入し、エンコーダがデータ効率のよい方法で音声対応の音声表現を学習することを奨励する。
UR-BERT上に構築されたTSシステムは、幅広い言語やリソース条件で最近のテキストエンコーダのベースラインを一貫して上回り、目に見えない言語への強力な一般化を示している。
関連論文リスト
- OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models [22.0296007342245]
OmniVoiceは600以上の言語にスケールする大規模多言語テキスト音声合成モデルである。
コアとなるのは、新しい拡散言語モデルスタイルの離散非自己回帰(NAR)アーキテクチャである。
OmniVoiceは、オープンソースデータから完全にキュレートされた581k時間のマルチリンガルデータセットを活用することで、これまでで最も広い範囲の言語カバレッジを実現している。
論文 参考訳(メタデータ) (2026-04-01T09:45:51Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。