論文の概要: Low-Burden Data Augmentation for Dysarthric ASR via Zero-Shot Voice Cloning
- arxiv url: http://arxiv.org/abs/2606.19823v1
- Date: Thu, 18 Jun 2026 05:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.674079
- Title: Low-Burden Data Augmentation for Dysarthric ASR via Zero-Shot Voice Cloning
- Title(参考訳): ゼロショット音声クローニングによる変形性膝関節症に対する低バーデンデータ拡張
- Authors: Satwinder Singh, Qianli Wang, Zihan Zhong, Clarion Mendes, Hasegawa-Johnson, Waleed Abdulla, Seyed Reza Shahamiri,
- Abstract要約: 我々は、クローンデータ、実データ、ハイブリッドデータにWhisper-mediumを微調整し、保留実音声で評価する。
結果として、ゼロショットのクローンは、コストのかかるデータ収集ボトルネックを回避する、スケーラブルなトレーニングデータを提供します。
- 参考スコア(独自算出の注目度): 12.580072386459904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition remains unreliable for dysarthric speech due to data scarcity and high inter-speaker variability. While synthetic data can address these gaps, traditional methods often require extensive speaker-specific data, reintroducing the collection bottleneck. We investigate zero-shot voice cloning as a low-burden augmentation strategy, using Higgs Audio V2 to clone speakers in the TORGO dataset. We fine-tune (FT) Whisper-medium on cloned, real, and hybrid data and evaluate on held-out real speech. Compared to the zero-shot (31.62%), Clone FT achieved a competitive 26.00% WER, nearly matching the 24.44% and 25.12% seen with Real and Hybrid FT, respectively. Notably, Clone and Hybrid FT outperform Real FT for moderate-severe speakers. Clone FT achieves the best results (11.45% relative) in cross-corpus evaluation on the SAP-1102. These results suggest that zero-shot cloning provides scalable training data that circumvents the costly data collection bottleneck.
- Abstract(参考訳): データ不足と話者間変動が大きいため, 顎関節症に対する音声認識は信頼性が低いままである。
合成データはこれらのギャップに対処できるが、従来の手法では話者固有の広範なデータを必要とし、収集ボトルネックを再導入する。
我々は,低バーデン化戦略としてのゼロショット音声のクローニングについて検討し,Higs Audio V2を用いてTORGOデータセット内の話者のクローンを行う。
我々は、クローンデータ、実データ、ハイブリッドデータにWhisper-medium(FT)を微調整し、保持された実音声で評価する。
ゼロショット(31.62%)と比較すると、クローンFTは26.00%のWERを達成し、リアルFTとハイブリッドFTをそれぞれ24.44%、25.12%とほぼ一致した。
特に、CloneとHybrid FTは、中程度のスピーカーでReal FTより優れています。
クローンFTはSAP-1102のクロスコーパス評価において最良の結果(11.45%)を得る。
これらの結果は、ゼロショットクローニングは、コストのかかるデータ収集ボトルネックを回避する、スケーラブルなトレーニングデータを提供することを示唆している。
関連論文リスト
- When Does Synthetic Patent Data Help? Volume-Fidelity Trade-offs in Low-Resource Multi-Label Classification [0.0]
BERT-for-PatentsのマイクロF1の改良は,主に体積効果を反映していることが示されている。
生のマイクロF1における分類性能を+0.58まで向上させるコーパスは、ジャカードオーバーラップ検索プロキシに悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2026-05-22T23:49:52Z) - Improving Code-Switching Speech Recognition with TTS Data Augmentation [58.34842693152991]
本稿では,この不足に対処する効果的なデータ拡張手法として,多言語テキスト音声(TTS)モデルについて検討する。
我々は、SEAMEデータセット上の多言語CosyVoice2 TTSモデルを微調整し、中国語と英語の合成音声を生成する。
論文 参考訳(メタデータ) (2026-01-02T10:11:51Z) - Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。
残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。
実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文 参考訳(メタデータ) (2024-12-14T15:11:42Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Improving End-to-End Speech Processing by Efficient Text Data
Utilization with Latent Synthesis [17.604583337593677]
高性能エンドツーエンド音声(E2E)処理モデルの訓練には,大量のラベル付き音声データが必要となる。
E2E音声処理モデルのための効率的なテキストデータ利用フレームワークLaSynを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:10:49Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。