論文の概要: L-Proto: Language-Aware Episodic Prototypical Training for Multilingual Speaker Verification
- arxiv url: http://arxiv.org/abs/2606.17416v1
- Date: Tue, 16 Jun 2026 01:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.208303
- Title: L-Proto: Language-Aware Episodic Prototypical Training for Multilingual Speaker Verification
- Title(参考訳): L-Proto:多言語話者認証のための言語認識型韻律学習
- Authors: Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan Lee,
- Abstract要約: 本稿では,L-Protoを提案する。
TidyVoice Challengeベンチマークの実験では、従来の微調整およびランダムなエピソードサンプリングよりも一貫した性能向上が示されている。
- 参考スコア(独自算出の注目度): 49.128847336227636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual speaker verification remains challenging because language-dependent acoustic variability causes speaker identity to become entangled with linguistic characteristics, degrading generalization across languages. In multilingual training, embeddings often encode language cues with speaker identity, causing speakers to form language-specific clusters. We propose L-Proto, a language-aware episodic prototypical training strategy that constructs language-consistent episodes. By sampling speakers from a single language per episode, L-Proto reduces language-driven variation during training and encourages embeddings to focus more directly on speaker identity. Experiments on the TidyVoice Challenge benchmark demonstrate consistent performance improvements over conventional fine-tuning and random episodic sampling across multiple backbone architectures.
- Abstract(参考訳): 言語に依存した音響的変動が話者アイデンティティを言語特性に絡み合わせる原因となり、言語間の一般化を低下させるため、多言語話者検証は依然として困難である。
多言語トレーニングでは、埋め込みはしばしば話者アイデンティティで言語キューを符号化し、話者が言語固有のクラスタを形成する。
本稿では,L-Protoを提案する。
エピソード毎に1つの言語から話者をサンプリングすることで、L-Protoはトレーニング中の言語駆動のバリエーションを減らし、埋め込みをスピーカーアイデンティティに直接フォーカスするように促す。
TidyVoice Challengeベンチマークの実験では、複数のバックボーンアーキテクチャにわたる従来の微調整およびランダムなエピソードサンプリングよりも一貫したパフォーマンス向上が示されている。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - LASPA: Language Agnostic Speaker Disentanglement with Prefix-Tuned Cross-Attention [2.199918533021483]
アクセント、音声解剖学、言語音声構造などの声質特性の重複は、言語情報と話者情報の分離を複雑にする。
これらのコンポーネントの分離は、話者認識の精度を大幅に向上させる。
そこで本稿では,接頭辞付きクロスアテンションを通じて共同学習を統合する,新しい非絡み合い学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-02T10:59:31Z) - Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。
本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文 参考訳(メタデータ) (2025-03-13T15:11:28Z) - CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation [25.82932373649325]
CrossSpeech++は、言語と話者情報をアンタングルする方法である。
これにより、言語間音声合成の品質が大幅に向上する。
さまざまなメトリクスを使って広範な実験を行い、CrossSpeech++が大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2024-12-28T06:32:49Z) - Mitigating the Linguistic Gap with Phonemic Representations for Robust Cross-lingual Transfer [26.014079273740485]
多言語理解の改善へのアプローチは、高リソース言語と低リソース言語の間の大きなパフォーマンスギャップに悩まされることが多い。
本研究は,12言語を対象とした3つの言語間タスクに関する実験である。
音韻表現は、正書法表現と比較して言語間の類似性が高い。
論文 参考訳(メタデータ) (2024-02-22T04:41:52Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。