Fugu-MT 論文翻訳(概要): KIT's Submission to Cross-Lingual Voice Cloning in IWSLT 2026

論文の概要: KIT's Submission to Cross-Lingual Voice Cloning in IWSLT 2026

arxiv url: http://arxiv.org/abs/2606.07240v1
Date: Fri, 05 Jun 2026 13:09:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.746502
Title: KIT's Submission to Cross-Lingual Voice Cloning in IWSLT 2026
Title（参考訳）: IWSLT2026におけるKITの言語間音声対話への参加
Authors: Seymanur Akti, Alexander Waibel,
Abstract要約: 言語間音声のクローニングは、ソース言語参照から話者識別を保ちながら、ターゲット言語で音声を生成することを目的としている。鍵となる課題は、アクセントの変化とドメイン固有の語彙の存在において、知性と自然性を維持することである。我々は、多言語テキスト音声モデル、FishAudio-S2-Proを構築し、言語制御を改善しアクセントリークを低減するために、言語タグプロンプトを導入する。
参考スコア（独自算出の注目度）: 61.29502937013759
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Cross-lingual voice cloning aims to generate speech in a target language while preserving speaker identity from a source-language reference. This task is central to speech translation and is the focus of the IWSLT 2026 Cross-Lingual Voice Cloning track. A key challenge is maintaining intelligibility and naturalness in the presence of accent variation and domain-specific vocabulary. We build on a multilingual text-to-speech model, FishAudio-S2-Pro, and introduce language tag prompting to improve language control and reduce accent leakage. We further apply reinforcement learning (RL) fine-tuning for task adaptation and observe improvements in intelligibility. Finally, we propose a reference-conditioned lexical matching method that improves pronunciation of domain-specific terms when lexical overlap is present. Results show that language prompting provides the largest gains, while lexical matching yields consistent improvements on matched subsets.
Abstract（参考訳）: 言語間音声のクローニングは、ソース言語参照から話者識別を保ちながら、ターゲット言語で音声を生成することを目的としている。このタスクは音声翻訳の中心であり、IWSLT 2026クロスリンガル音声クローントラックの焦点となっている。重要な課題は、アクセントの変化とドメイン固有の語彙の存在において、知性と自然性を維持することである。我々は、多言語テキスト音声モデル、FishAudio-S2-Proを構築し、言語制御を改善しアクセントリークを低減するために、言語タグプロンプトを導入する。さらに、タスク適応のための強化学習(RL)の微調整を適用し、インテリジェンスの改善を観察する。最後に,語彙重複が存在する場合のドメイン固有語の発音を改善する基準条件付き語彙マッチング手法を提案する。結果は、言語プロンプトが最大のゲインを提供するのに対して、語彙マッチングは一致したサブセットに対して一貫した改善をもたらすことを示している。

関連論文リスト

X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning [62.740127542449166]
X-Voiceは、任意の音声をクローンし、誰でも30の言語を話せる多言語ゼロショット音声クローンモデルである。 X-Voiceは国際音声アルファベット(IPA)を統一表現として420K時間多言語コーパスで訓練されている。
論文参考訳（メタデータ） (2026-05-07T02:57:53Z)
One Voice, Many Tongues: Cross-Lingual Voice Cloning for Scientific Speech [0.24870920787157705]
異なる言語で音声を生成しながら話者の音声アイデンティティを保持することは、音声言語技術における根本的な課題である。本稿では、アラビア語、中国語、フランス語の科学テキストの言語間音声生成のための最先端音声クローニングモデルについて評価する。
論文参考訳（メタデータ） (2026-04-28T21:47:52Z)
Language translation, and change of accent for speech-to-speech task using diffusion model [16.436756456803774]
音声音声変換(S2ST)は、ある言語における音声入力を別の言語における音声出力に変換することを目的としている。本稿では,アクセントの同時翻訳とアクセント変化のための統一的なアプローチを提案する。
論文参考訳（メタデータ） (2025-05-04T23:23:46Z)
CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation [25.82932373649325]
CrossSpeech++は、言語と話者情報をアンタングルする方法である。これにより、言語間音声合成の品質が大幅に向上する。さまざまなメトリクスを使って広範な実験を行い、CrossSpeech++が大幅な改善を実現していることを示す。
論文参考訳（メタデータ） (2024-12-28T06:32:49Z)
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。 VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文参考訳（メタデータ） (2023-03-07T14:31:55Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data [11.18504333789534]
そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
論文参考訳（メタデータ） (2021-10-14T08:16:06Z)
On the Importance of Word Order Information in Cross-lingual Sequence Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2020-01-30T03:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。