論文の概要: Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study
- arxiv url: http://arxiv.org/abs/2606.22009v1
- Date: Sat, 20 Jun 2026 12:17:03 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 15:21:41.279928
- Title: Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study
- Title(参考訳): Grapheme-to-Phoneme変換のための大規模言語モデルのベンチマーク
- Authors: Tomoki Koriyama,
- Abstract要約: Grapheme-to-phoneme (G2P)変換は、制御可能で堅牢なテキスト音声変換に不可欠である。
日本語G2Pで30以上の大言語モデル(LLM)をベンチマークした。
Parseモードは、ほとんどのモデルでダイレクトモードより優れている。
LLM予測仮名をかな入力TSに入力すると、エンドツーエンドTSよりも発音が良くなる。
- 参考スコア(独自算出の注目度): 10.32543637637479
- License:
- Abstract: Grapheme-to-phoneme (G2P) conversion is essential for controllable and robust text-to-speech, and large language models (LLMs), with broad linguistic knowledge, offer a promising approach. We benchmarked over 30 LLMs on Japanese G2P, comparing them with conventional morphological analyzers on 3000 manually annotated sentences. We evaluated two prompting strategies: a parse mode, where the LLM performs morphological analysis followed by rule-based kana conversion, and a direct mode, where the LLM directly predicts kana readings. The results show that model size, version, and Japanese-specialized training are key factors, with the best LLMs achieving kana character error rate below 0.52\% vs. the best conventional tool (1.03\%). Parse mode outperforms direct mode for most models, as rule-based post-processing relieves the LLM of handling complex pronunciation rules. We also show that feeding LLM-predicted kana into a kana-input TTS yields better pronunciation than end-to-end TTS.
- Abstract(参考訳): Grapheme-to-phoneme (G2P)変換は、制御可能で堅牢なテキスト音声変換に必須であり、言語知識の広い大規模言語モデル(LLM)は、有望なアプローチを提供する。
日本語G2Pで30以上のLLMをベンチマークし,3000の注釈文で従来の形態素解析器と比較した。
我々は,LLMが形態解析を行うパースモードとルールベースの仮名変換を行うダイレクトモードと,LLMが仮名読みを直接予測するダイレクトモードの2つのプロンプト戦略を評価した。
その結果, モデルサイズ, バージョン, 日本語特化訓練が重要な要因であることが示され, 最高のLCMでは, 従来のツール(1.03\%)に比べて, 仮名文字誤り率0.52\%以下であることが判明した。
Parseモードは、ルールベースの後処理により、複雑な発音規則を扱うLLMが緩和されるため、ほとんどのモデルで直接モードよりも優れている。
また,LLM予測カナをカナ入力TTSに入力することで,エンドツーエンドのTSよりも良好な発音が得られることを示す。
関連論文リスト
- Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。