論文の概要: Towards Personalized Federated Learning for Dysarthric Speech Recognition
- arxiv url: http://arxiv.org/abs/2606.13253v1
- Date: Thu, 11 Jun 2026 12:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.777465
- Title: Towards Personalized Federated Learning for Dysarthric Speech Recognition
- Title(参考訳): 変形性音声認識のための個人化フェデレーション学習に向けて
- Authors: Tao Zhong, Mengzhe Geng, Jiajun Deng, Shujie Hu, Xunying Liu,
- Abstract要約: 本稿では,パラメータベースの平均化戦略と埋め込みベースの平均化戦略を含む,パーソナライズを実現するための2つのアグリゲーション戦略について検討する。
UASpeech と TORGO の実験により、提案手法は、UASpeech の 0.99% と TORGO の 0.56% (4.73% ) と、統計学的に有意な WER の 0.99% の絶対値(3.15% の相対値)の削減により、ベースライン正規化の FedAvg よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 49.291957451546914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition is challenging for dysarthric speakers. While federated learning (FL)-based ASR can be an effective tool for protecting privacy, it suffers from heterogeneity issues caused by speaker variability. Forcing all speakers to share the same model components can be suboptimal under such heterogeneity, making personalization a promising direction; however, related research on dysarthric speech remains limited. To this end, this paper explores two aggregation strategies to achieve personalization, including the parameter-based averaging strategy and the embedding-based averaging strategy. Experiments on UASpeech and TORGO show that the proposed methods outperform the baseline regularized FedAvg by statistically significant WER reductions of up to 0.99% absolute (3.15% relative) on UASpeech and 0.56% absolute (4.73% relative) on TORGO, respectively.
- Abstract(参考訳): 難聴者は音声認識が難しい。
FL(Federated Learning)ベースのASRは、プライバシーを保護する効果的なツールであるが、話者の多様性に起因する異種性の問題に悩まされている。
すべての話者が同じモデルコンポーネントを共有するように強制することは、そのような不均一性の下では最適ではないため、パーソナライゼーションは有望な方向である。
そこで本研究では,パラメータベースの平均化戦略と埋め込みベースの平均化戦略を含む,パーソナライズを実現するための2つのアグリゲーション戦略について検討する。
UASpeech と TORGO の実験により、提案手法は、UASpeech の 0.99% と TORGO の 0.56% (4.73% ) と、統計学的に有意な WER の 0.99% の絶対値(3.15% の相対値)の削減により、ベースライン正規化の FedAvg よりも優れていることが示された。
関連論文リスト
- Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database [7.78293690567929]
外科的音声認識は, 正常な発話に対する重度変化と相違から, 課題に直面している。
従来のアプローチでは、患者1人当たりの正常な音声で事前訓練された、個々の微調整のASRモデルを使用して、特徴的衝突を防ぐ。
実験により,複数話者の微調整が個々の音声パターンの認識を改善することが明らかとなった。
論文 参考訳(メタデータ) (2025-08-26T07:00:12Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport [3.903766260291157]
コマンド音声認識における話者適応(SA)に着目し,複数の情報源からのデータを利用できる。
最適トランスポートに基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。
話者非依存モデルに対して,コマンド誤り率を相対的に16%, 7%削減し, 最適な競合手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T14:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。