論文の概要: OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2606.09553v1
- Date: Mon, 08 Jun 2026 14:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.266678
- Title: OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages
- Title(参考訳): OpenBibleTTS:低リソース言語のための大規模音声リソースとTSモデル
- Authors: David Guzmán, Luel Hagos Beyene, Jesujoba Oluwadara Alabi, Yejin Jeon, Dietrich Klakow, David Ifeoluwa Adelani,
- Abstract要約: 我々は,37言語にまたがる低リソース音声合成のためのベンチマークOpenBibleTTSを紹介する。
様々なTTSアーキテクチャと大規模音声生成モデルの体系的比較は、ドメイン内聖書テキストとドメイン外資料にまたがって行われる。
結果は、言語やメトリクスにまたがる単一のシステムが支配的でないことを示している。
- 参考スコア(独自算出の注目度): 28.79973199154971
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in neural text-to-speech (TTS) and multilingual speech generation have substantially improved synthetic speech quality, yet these gains remain unevenly distributed across the world's languages. Existing models are still dominated by a small set of high-resource languages, while many studies of low-resource TTS are simulated on artificially downsampled high-resource corpora that do not reflect the orthographic variation and limited phonetic coverage encountered in genuinely underrepresented settings. As such, we introduce OpenBibleTTS, which is a large-scale benchmark for low-resource speech synthesis spanning 37 underrepresented languages. Moreover, a systematic comparison of various TTS architectures and large-scale speech generation models is conducted across in-domain Biblical text and out-of-domain material. Results show that no single system dominates across languages and metrics: Gemini-TTS achieves the highest listener ratings on most evaluated languages, but monolingual EveryVoice models trained on OpenBibleTTS remain strongest for intelligibility and are preferred in several African languages, while open from-scratch systems degrade sharply on out-of-domain text, revealing a persistent gap between broad multilingual coverage and reliable synthesis quality in underserved linguistic communities. We complement automatic evaluation with subjective human judgments, and open-source all processed datasets, alignments, and trained models to support future low-resource TTS research.
- Abstract(参考訳): ニューラルテキスト音声合成(TTS)と多言語音声生成の最近の進歩は、合成音声の質を大幅に向上させたが、これらの増加は世界の言語に不均一に分散している。
既存のモデルは依然として少数の高ソース言語によって支配されているが、低リソースのTSSの研究の多くは、正書法的な変化や、純粋に表現されていない設定で発生する限られた音素カバレッジを反映しない、人工的にサンプル化された高ソースコーパスでシミュレートされている。
そこで我々は,37言語にまたがる低リソース音声合成のための大規模ベンチマークOpenBibleTTSを紹介する。
さらに、様々なTSアーキテクチャと大規模音声生成モデルの体系的比較を、ドメイン内聖書テキストとドメイン外資料にまたがって実施する。
Gemini-TTSは、ほとんどの評価された言語で最高のリスナー格付けを達成しているが、OpenBibleTTSで訓練されたモノリンガルEveryVoiceモデルは、インテリジェンスに最強であり、いくつかのアフリカ言語で好まれている。
我々は、主観的人間の判断による自動評価を補完し、将来の低リソースTS研究を支援するために、全ての処理されたデータセット、アライメント、訓練されたモデルをオープンソースにします。
関連論文リスト
- LoASR-Bench: Evaluating Large Speech Language Models on Low-Resource Automatic Speech Recognition Across Language Families [53.111005425237245]
大規模言語モデル(LLM)は、音声言語モデル(SpeechLM)の大幅な進歩を導いている。
LoASR-Benchはラテン文字と非ラテン文字の両方を特徴とする9つの言語ファミリーの25の言語で構成されている。
実験結果は、現実世界の低リソース言語を扱う際の最新のSpeechLMの限界を浮き彫りにした。
論文 参考訳(メタデータ) (2026-03-20T15:26:34Z) - Align2Speak: Improving TTS for Low Resource Languages via ASR-Guided Online Preference Optimization [13.222167833914924]
自動回帰型多言語TSモデルを新しい言語に適用するためのフレームワークを提案する。
我々は、ターゲット言語の韻律的特徴を捉えるために、新しい言語の限られたペアデータに基づいて、このモデルを微調整する。
実験により、このパイプラインは低リソース言語で理解不能で話者一貫性のある音声を生成することが示された。
論文 参考訳(メタデータ) (2025-09-26T00:28:50Z) - Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis [5.283520143851873]
本稿では,データ最適化フレームワークと高度な音響モデルを統合し,高品質なTTSシステムを構築する手法を提案する。
本稿では,タイ語を実例として,複雑な音声規則とスパースリソースを効果的に扱う手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-10T15:32:57Z) - Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。
そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。
以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T12:53:01Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。