論文の概要: Multilingual Multi-Speaker Unit Vocoders: A Systematic Analysis of Discrete Speech Representations
- arxiv url: http://arxiv.org/abs/2606.06740v1
- Date: Thu, 04 Jun 2026 21:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.458792
- Title: Multilingual Multi-Speaker Unit Vocoders: A Systematic Analysis of Discrete Speech Representations
- Title(参考訳): 多言語多話者単位ボコーダ:離散音声表現の体系的解析
- Authors: Naman Kothari, Arjun Gangwar, Adarsh Arigala, S Umesh,
- Abstract要約: 自己教師型埋め込みのk平均クラスタリングによって得られる離散音声単位は、音声、話者、言語情報を絡み合わせる。
インドの4言語にわたるBigVGANベースの単位ボコーダを解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete speech units obtained via k-means clustering of self supervised embeddings entangle phonetic, speaker, and language information, causing speaker mixing and cross-lingual interference in multilingual multi-speaker speech generation. Despite growing use in Audio LLMs and speech to speech systems, unit vocoders remain underexplored. We analyze a BigVGAN based unit vocoder, across four Indian languages. We study the interaction between cluster size and conditioning strategies using WER, speaker similarity, and unit level metrics. Results show that cluster size governs intelligibility by improving phonetic discriminability, while explicit speaker conditioning is indispensable for preventing identity collapse. Language supervision yields further gains mainly at lower cluster sizes where units remain ambiguous. Our analysis shows similar phonemes across languages collapse to the same cluster IDs at smaller inventories, with larger clusters progressively separating them.
- Abstract(参考訳): 自己教師型埋め込みのk平均クラスタリングにより得られた離散音声単位は、音声、話者、言語情報を絡み合わせることで、多言語多話者音声生成における話者混合と言語間干渉を引き起こす。
オーディオLLMや音声合成システムでの利用が増えているにもかかわらず、単位ボコーダは未探索のままである。
インドの4言語にわたるBigVGANベースの単位ボコーダを解析する。
We study the interaction between cluster size and conditioning strategy using WER, speaker similarity and unit level metrics。
その結果,クラスタサイズは音素識別性の向上によって知性を支配するが,明瞭な話者条件付けはアイデンティティの崩壊を防ぐのに不可欠であることがわかった。
言語の監督は、主にユニットがあいまいなままの低いクラスタサイズでさらに利益を得る。
我々の分析では、言語間で類似した音素が小さな在庫で同じクラスタIDに崩壊し、より大きなクラスタが徐々に分離している。
関連論文リスト
- Who Spoke What When? Evaluating Spoken Language Models for Conversational ASR with Semantic and Overlap-Aware Metrics [99.89493037369071]
音声の重複や遠距離雑音,話者数の変化など,会話の自動音声認識は依然として困難である。
近年のLCMベースのシステムは単一話者のベンチマークでは良好に動作するが、マルチ話者設定におけるロバスト性は不明確である。
重なり、意味的忠実度、話者数、シングルチャンネルとマルチチャネル入力の4つの軸に沿って、LLMベースのアプローチとモジュラーアプローチを体系的に比較する。
論文 参考訳(メタデータ) (2026-03-24T02:01:21Z) - Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。
本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文 参考訳(メタデータ) (2025-03-13T15:11:28Z) - Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT [10.18337180909434]
非転写音声から意味のある特徴を抽出するためには,自己教師付き音声表現学習が不可欠である。
本稿では,音節単位を話者情報から分離する,音声のみの自己教師型微調整手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T09:07:08Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Unsupervised Acoustic Unit Discovery by Leveraging a
Language-Independent Subword Discriminative Feature Representation [31.87235700253597]
本論文では,非ラベル音声データから電話型音響ユニット(AUD)を自動的に発見する。
第1段階は単語識別的特徴表現を学習し,第2段階は学習表現にクラスタリングを適用し,検出された音響単位として電話型クラスタを得る,という2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-02T11:43:07Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。