論文の概要: Neural Speaker Diarization via Multilingual Training: Evaluation on Low-Resource Nepali-Hindi Speech
- arxiv url: http://arxiv.org/abs/2606.26144v1
- Date: Sun, 21 Jun 2026 12:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 18:46:32.012148
- Title: Neural Speaker Diarization via Multilingual Training: Evaluation on Low-Resource Nepali-Hindi Speech
- Title(参考訳): マルチリンガル訓練によるニューラル話者ダイアリゼーション:低音源ネパール・ヒンディー語音声の評価
- Authors: Samip Neupane, Sandesh Pokhrel, Sandesh Pyakurel, Basanta Joshi,
- Abstract要約: 本論文では,マルチリンガル学習による低音源ネパール・ヒンディー語話者のダイアリゼーションについて検討する。
EEND with encoder-decoder attractors (EEND-EDA) と EEND with Perceiver-based attractors (DiaPer) の2つのモダンアーキテクチャを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization, the task of determining "who spoke when" in a multi-speaker recording, is a critical component in applications such as meeting transcription, accessibility tools, and multilingual information retrieval. While end-to-end neural diarization systems have achieved strong performance for English and other high-resource languages, their effectiveness degrades substantially for underrepresented languages where annotated speech data is scarce. This paper investigates speaker diarization for low-resource Nepali-Hindi speech through a multilingual training approach, comparing two modern architectures: EEND with encoder-decoder attractors (EEND-EDA) and EEND with Perceiver-based attractors (DiaPer). Both models are trained on a multilingual corpus combining English speech from LibriSpeech, diverse speaker recordings from VoxCeleb, and separately collected Nepali and Hindi audio, a setup designed to reduce language bias and encourage cross-lingual generalization. We evaluate both models across 2-speaker, 3-speaker, 4-speaker, and mixed-speaker scenarios on LibriSpeech, VoxCeleb, and Nepali-Hindi (NeHi) test sets. DiaPer achieves stronger overall performance than EEND-EDA, particularly in more challenging multi-speaker conditions, obtaining DERs of 3.28%, 2.02%, 4.05%, and 4.76% on NeHi 2-speaker, 3-speaker, 4-speaker, and mixed-speaker settings, respectively, compared to 1.50%, 9.68%, 16.17%, and 11.19% for EEND-EDA. These results demonstrate the viability of Perceiver-based end-to-end neural diarization for low-resource multilingual speech processing.
- Abstract(参考訳): 話者ダイアリゼーション(英: Speaker Diarization)とは、複数話者記録における「誰がいつ話すか」を決定するタスクであり、会議の書き起こし、アクセシビリティツール、多言語情報検索などのアプリケーションにおいて重要な要素である。
エンド・ツー・エンドのニューラルダイアリゼーションシステムは、英語や他の高リソース言語では強力な性能を達成しているが、その効果は、注釈付き音声データが不足している表現不足言語では著しく低下している。
本稿では,多言語学習による低音源ネパール・ヒンディー語話者のダイアリゼーションについて検討し,エンコーダ・デコーダ・アトラクタ(EEND-EDA)とパーセプタ・アトラクタ(DiaPer)の2つの近代的アーキテクチャを比較した。
どちらのモデルも、LibriSpeechの英語音声、VoxCelebの多様な話者録音、ネパール語とヒンディー語を別々に収集した多言語コーパスで訓練されている。
両モデルを,LibriSpeech,VoxCeleb,ネパール・ヒンディー(NeHi)テストセット上での2話者,3話者,4話者,混合話者シナリオで評価した。
DiaPer は EEND-EDA よりも高い総合性能を達成しており、EEND-EDA では 1.50%, 9.68%, 16.17%, 11.19% に対して、EEND-EDA では 3.28%, 2.02%, 4.05%, 4.76% である。
これらの結果は、低リソース多言語音声処理のためのPerceiverに基づくエンドツーエンドのニューラルダイアリゼーションの実現可能性を示している。
関連論文リスト
- Speaker Diarization for Low-Resource Languages Through Wav2vec Fine-Tuning [4.396936958546459]
我々は、専用のクルド語コーパス上で、Wav2Vec 2.0の自己教師型学習モデルを訓練する。
我々は他の言語から学んだ多言語表現に適応し、クルド語の音声的・音響的特徴を捉える。
結果は、他の未研究言語で効果的なダイアリゼーションシステムを構築するための基盤を確立する。
論文 参考訳(メタデータ) (2025-04-23T10:45:59Z) - A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。
このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文 参考訳(メタデータ) (2024-06-22T10:49:36Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Combining speakers of multiple languages to improve quality of neural
voices [21.417373542428617]
15の異なる地域をまたいだ8言語で30人の話者を用いた大規模実験の結果を報告する。
言語間の合成において、平均して生成された品質は、平均的なオピニオンスコアの観点から、ネイティブな単一話者モデルの80%ドル以内である。
論文 参考訳(メタデータ) (2021-08-17T16:14:13Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。