Fugu-MT 論文翻訳(概要): Towards Personalized Federated Learning for Dysarthric Speech Recognition

論文の概要: Towards Personalized Federated Learning for Dysarthric Speech Recognition

arxiv url: http://arxiv.org/abs/2606.13253v1
Date: Thu, 11 Jun 2026 12:10:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.777465
Title: Towards Personalized Federated Learning for Dysarthric Speech Recognition
Title（参考訳）: 変形性音声認識のための個人化フェデレーション学習に向けて
Authors: Tao Zhong, Mengzhe Geng, Jiajun Deng, Shujie Hu, Xunying Liu,
Abstract要約: 本稿では,パラメータベースの平均化戦略と埋め込みベースの平均化戦略を含む,パーソナライズを実現するための2つのアグリゲーション戦略について検討する。 UASpeech と TORGO の実験により、提案手法は、UASpeech の 0.99% と TORGO の 0.56% (4.73% ) と、統計学的に有意な WER の 0.99% の絶対値(3.15% の相対値)の削減により、ベースライン正規化の FedAvg よりも優れていることが示された。
参考スコア（独自算出の注目度）: 49.291957451546914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech recognition is challenging for dysarthric speakers. While federated learning (FL)-based ASR can be an effective tool for protecting privacy, it suffers from heterogeneity issues caused by speaker variability. Forcing all speakers to share the same model components can be suboptimal under such heterogeneity, making personalization a promising direction; however, related research on dysarthric speech remains limited. To this end, this paper explores two aggregation strategies to achieve personalization, including the parameter-based averaging strategy and the embedding-based averaging strategy. Experiments on UASpeech and TORGO show that the proposed methods outperform the baseline regularized FedAvg by statistically significant WER reductions of up to 0.99% absolute (3.15% relative) on UASpeech and 0.56% absolute (4.73% relative) on TORGO, respectively.
Abstract（参考訳）: 難聴者は音声認識が難しい。 FL(Federated Learning)ベースのASRは、プライバシーを保護する効果的なツールであるが、話者の多様性に起因する異種性の問題に悩まされている。すべての話者が同じモデルコンポーネントを共有するように強制することは、そのような不均一性の下では最適ではないため、パーソナライゼーションは有望な方向である。そこで本研究では,パラメータベースの平均化戦略と埋め込みベースの平均化戦略を含む,パーソナライズを実現するための2つのアグリゲーション戦略について検討する。 UASpeech と TORGO の実験により、提案手法は、UASpeech の 0.99% と TORGO の 0.56% (4.73% ) と、統計学的に有意な WER の 0.99% の絶対値(3.15% の相対値)の削減により、ベースライン正規化の FedAvg よりも優れていることが示された。

論文の概要: Towards Personalized Federated Learning for Dysarthric Speech Recognition

関連論文リスト