論文の概要: NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech
- arxiv url: http://arxiv.org/abs/2606.09295v1
- Date: Mon, 08 Jun 2026 10:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.916246
- Title: NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech
- Title(参考訳): NüshuVoice:Pitch-Aware Text-to-Speechによる絶滅危惧Nüshuの声の復活
- Authors: Hongkun Yang, Xinhui Yi, Xiyan Zhao, Yibo Meng, Lionel Z. Wang, Lixu Wang, Yaqi Zhang, Ruiqi Chen, Xuanyue Zhao, Lanxin Zhang, Yu Zeng, Weijia Chu, Yiming Ma, Chenyu Liu, Jianghao Lin, Xin Xu,
- Abstract要約: 南州(にしゅう)は、中国・湖南省南部で女性が使用する、絶滅危惧文字である。
NshuVoiceは、Nshuの最初のテキストと音声のベンチマークである。
Nshu-PitchVITSはF0条件のVITSフレームワークで、Nshuの5レベルピッチ表記を明示的なプロス帰納バイアスとして活用する。
- 参考スコア(独自算出の注目度): 22.26433251709318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nüshu is an endangered phonetic script historically used by women in Jiangyong County, southern Hunan, China. While existing computational studies of Nüshu mainly focus on textual digitization and visual recognition, the acoustic reconstruction of its authentic pronunciation remains largely unexplored. Building a Nüshu text-to-speech (TTS) system is particularly challenging because available recordings are extremely limited and mostly consist of isolated syllable-level pronunciations rather than natural sentence-level utterances. In this work, we introduce NüshuVoice, the first TTS benchmark for Nüshu. We construct a sentence-level Nüshu text-to-audio dataset that aligns standardized Unicode Nüshu text, phonetic transcriptions, standard Chinese translations, and archival recordings. To synthesize speech under this extreme low-resource setting, we propose Nüshu-PitchVITS, an F0-conditioned VITS framework that leverages Nüshu's five-level pitch notation as an explicit prosodic inductive bias. Experimental results show that Nüshu-PitchVITS outperforms strong TTS baselines in spectral fidelity, pitch reconstruction, and human-rated intelligibility. We publicly release the dataset and code at: https://anonymous.4open.science/r/Nvshu-TTS-2EB6.
- Abstract(参考訳): ニュシュ(Nüshu)は、中国湖南省江東郡の女性によって歴史的に用いられてきた、絶滅危惧文字である。
ニュシュの既存の計算研究は、主にテキストのデジタル化と視覚認識に焦点が当てられているが、その真の発音の音響的再構成はほとんど未解明のままである。
使用可能な録音は極めて限られており、主に自然な文レベルの発話ではなく、独立した音節レベルの発音で構成されているため、特にTTSシステムの構築は困難である。
本研究では,Nüshuの最初のTSベンチマークであるNüshuVoiceを紹介する。
我々は,標準のUnicodeNüshuテキスト,音声書き起こし,標準中国語翻訳,アーカイブ記録を整合させる文レベルのNüshuテキスト音声データセットを構築した。
この極低リソース環境下で音声を合成するために,Nüshu-PitchVITSという,Nüshuの5段階ピッチ表記を明示的韻律帰納バイアスとして活用したF0条件のVITSフレームワークを提案する。
実験結果から,Nüshu-PitchVITSはスペクトルの忠実度,ピッチ再構成,人格的信頼度において,強いTTSベースラインよりも優れていた。
データセットとコードは、https://anonymous.4open.science/r/Nvshu-TTS-2EB6で公開しています。
関連論文リスト
- WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing [26.82255620167095]
WenetSpeech-Chuanは、私たちの小説『Chuan-Pipeline』で作られた1万時間の注釈付きコーパスです。
また、手作業による手作業による書き起こしによる高品質なASRとTSベンチマークであるWenetSpeech-Chuan-Evalもリリースしています。
実験によると、WnetSpeech-Chuanでトレーニングされたモデルは、オープンソースシステム間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-22T16:44:00Z) - NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech [0.0]
非バーバルTTS(NonverbalTTS、NVTTS)は、10種類のNV(笑い、うず)と8つの感情カテゴリーで注釈付けされた17時間のオープンアクセスデータセットである。
自動音声認識(ASR)、NVタグ付け、感情分類、融合アルゴリズムを統合し、複数のアノテータからの書き起こしをマージする包括的パイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-17T14:17:40Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Investigation of Japanese PnG BERT language model in text-to-speech
synthesis for pitch accent language [35.27180572719508]
PnGBERTは文字領域と音素領域における自己教師付き事前学習モデルであり、エンドツーエンドのテキスト音声合成(TTS)に使用される。
PnGBERTが捉えた特徴が日本語TTSに与える影響を,ピッチアクセントの推測に役立つ条件を決定するために微調整条件を変更して検討した。
実験の結果,プレトレーニングにより得られたPnGBERTの特徴はピッチアクセントの推測に役立つ情報を含んでおり,PnGBERTは聴取試験においてアクセントの正確さでベースラインのTacotronより優れていた。
論文 参考訳(メタデータ) (2022-12-16T07:47:03Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Modeling Homophone Noise for Robust Neural Machine Translation [23.022527815382862]
このフレームワークは、ホモホンノイズディテクタと、ホモホンエラーに対する音節対応NMTモデルで構成されています。
検出器は、テキスト文中の潜在的ホモフォン誤りを特定し、それらを音節に変換して混合シーケンスを形成し、音節認識NMTに入力する。
論文 参考訳(メタデータ) (2020-12-15T16:12:04Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。