論文の概要: ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Conversion
- arxiv url: http://arxiv.org/abs/2606.20179v1
- Date: Thu, 18 Jun 2026 12:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.859598
- Title: ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Conversion
- Title(参考訳): ReNikud:Hebrew Grapheme-to-Phonemeコンバージョン
- Authors: Maxim Melichov, Yakov Kolani, Morris Alper,
- Abstract要約: Grapheme-to-phoneme (G2P)による現代ヘブライ語への変換は、TTS (text-to-speech) のようなアプリケーションに必要である。
標準的アプローチはまず母音の発音を予測し、国際音声アルファベット(IPA)の転写を生成する。
我々の手法であるReNikudは、これらの制限を2つの重要な洞察で克服する。
- 参考スコア(独自算出の注目度): 8.07456580378476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grapheme-to-phoneme (G2P) conversion for Modern Hebrew is needed for applications like text-to-speech (TTS), but is challenging due to the language's abjad writing system, which leaves vowels largely unwritten, creating substantial ambiguity. Standard approaches first predict vowel diacritics (nikud) to produce International Phonetic Alphabet (IPA) transcriptions, but this is limited: vocalization data is scarce and laborious to produce, it does not specify features such as lexical stress, and it reflects formal grammatical rules rather than everyday spoken pronunciation. Direct sequence-to-sequence IPA prediction, meanwhile, struggles on limited data and fails to exploit the character-level alignment characteristic of abjads. Our method, ReNikud, overcomes these limitations with two key insights: (1) Weak audio supervision via a phoneme-based automatic speech recognition (ASR) pseudo-labeling pipeline on thousands of hours of unlabeled Hebrew audio, yielding phonemic transcriptions that reflect natural spoken norms without manual annotation. (2) A pseudo-vocalization architecture that predicts IPA phonemes at each character position, enforcing character-level alignment as an inductive bias. Results on existing Hebrew G2P benchmarks and the new targeted MILIM benchmark for spoken Hebrew show that ReNikud surpasses previous state-of-the-art methods. We will release our code and trained models to support further work on Hebrew TTS and speech technologies.
- Abstract(参考訳): 現代ヘブライ語のためのG2P変換は、テキスト音声変換(TTS)のようなアプリケーションには必要であるが、母音がほとんど書かれていないという言語のアブジャド表記システムのために困難である。
標準的アプローチでは、まず母音の発音(ニクロード)を予測して国際音声アルファベット(IPA)の転写を生成するが、これは制限されている。
一方、直接シーケンス対シーケンスのIPA予測は、限られたデータに苦慮し、アジャドの文字レベルのアライメント特性を活用できない。
1) 音素に基づく自動音声認識(ASR)による疑似ラベル付きパイプラインを何千時間ものヘブライ語音声のラベル付けを行ない、手動のアノテーションなしで自然な音声規範を反映した音素の書き起こしを行う。
2)インダクティブバイアスとして文字レベルのアライメントを強制し,各文字位置でIPA音素を予測する擬似ボカライズアーキテクチャ。
既存のヘブライ語G2Pベンチマークと音声ヘブライ語MILIMベンチマークの結果は、ReNikudが従来の最先端の手法を上回っていることを示している。
私たちは、Hebrew TTSと音声技術に関するさらなる作業をサポートするために、コードとトレーニングされたモデルをリリースします。
関連論文リスト
- Phonikud: Hebrew Grapheme-to-Phoneme Conversion for Real-Time Text-to-Speech [7.391392949962331]
Phonikudは、完全に特定されたIPA転写を出力する軽量でオープンソースのHebrew grapheme-to-phoneme(G2P)システムである。
我々は、ヘブライ語G2Pのベンチマークとして、IPAアノテーションで転写されたヘブライ語音声のILSpeechデータセットをコントリビュートする。
以上の結果から,Phonikud G2P変換はヘブライ語からの音素を従来手法よりも精度良く予測できることがわかった。
論文 参考訳(メタデータ) (2025-06-14T02:16:38Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - A Language Modeling Approach to Diacritic-Free Hebrew TTS [21.51896995655732]
我々はヘブライ語におけるテキスト音声(TTS)の課題に取り組む。
伝統的なヘブライ語には、個人が与えられた言葉を発音する方法を規定するダイアクリティカル語が含まれている。
現代ヘブライ語におけるダイアクリティカルな発音の欠如は、読者が正しい発音を結論付けることを期待する結果となった。
論文 参考訳(メタデータ) (2024-07-16T22:43:49Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - IPA-CLIP: Integrating Phonetic Priors into Vision and Language
Pretraining [8.129944388402839]
本稿では,コントラスト言語-画像事前学習(CLIP)に先行音声を挿入する。
IPA-CLIPはこの発音エンコーダと元のCLIPエンコーダ(画像とテキスト)からなる。
論文 参考訳(メタデータ) (2023-03-06T13:59:37Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。