論文の概要: Augmenting Dysarthric Speech Severity Assessment with MOS Supervision
- arxiv url: http://arxiv.org/abs/2606.18645v1
- Date: Wed, 17 Jun 2026 03:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.986047
- Title: Augmenting Dysarthric Speech Severity Assessment with MOS Supervision
- Title(参考訳): MOSスーパービジョンによる関節症音声の重症度評価
- Authors: Kaimeng Jia, Minzhu Tu, Zengrui Jin, Siyin Wang, Chao Zhang,
- Abstract要約: 本研究は, 音声合成評価から得られたデータを用いて, 変形性音声評価を強化することを提案する。
実験により,音声合成評価データの微調整は,知性および自然性予測の両方の性能を一貫して向上させることが示された。
- 参考スコア(独自算出の注目度): 13.782589618988501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dysarthria is a speech disorder marked by reduced intelligibility and communicative effectiveness. Automatic utterance-level assessment of dysarthric speech can support scalable speech monitoring and therapy-related analysis. Yet training such systems is bottlenecked by the scarcity of clinically annotated dysarthric speech. This work proposes to augment dysarthric speech assessment using data from speech synthesis evaluations, specifically human-annotated utterances with Mean Opinion Score (MOS) labels from the QualiSpeech corpus. Experiments show that fine-tuning on speech synthesis assessment data consistently improves performance on both intelligibility and naturalness prediction, while joint training yields gains primarily on naturalness. These results suggest that synthesis artifacts and dysarthric speech share perceptual commonalities, and speech synthesis evaluation corpora offer a practical augmentation source that reduces reliance on scarce clinical annotations.
- Abstract(参考訳): 発声障害(Dysarthria)は、認知力の低下とコミュニケーション効果の低下を特徴とする言語障害である。
変形性音声の自動発話レベル評価は、スケーラブルな音声モニタリングと治療関連分析を支援することができる。
しかし、このような訓練は、臨床的にアノテートされた変形性関節症音声の不足によってボトルネックとなる。
本研究は, 音声合成評価データ, 特に, 平均オピニオンスコア (MOS) ラベルを用いた人間の注釈付き発話データを用いて, 変形性音声評価を強化することを提案する。
実験により、音声合成評価データの微調整は、知性および自然性予測の両方のパフォーマンスを一貫して改善し、一方、共同学習は、主に自然性に利益をもたらすことが示された。
以上の結果から, 合成人工物と変形性音声は知覚的共通点を共有し, 音声合成評価コーパスは, 少ない臨床アノテーションへの依存を軽減できる実用的な増強源となることが示唆された。
関連論文リスト
- On the Emotion Understanding of Synthesized Speech [63.13411068766772]
感情は音声対話における中核的なパラ言語的特徴である。
現在の音声感情認識(SER)モデルは、合成音声に一般化できない。
生成音声言語モデル(SLM)は、パラ言語的手がかりを無視しながら、テキスト意味論から感情を推測する傾向がある。
論文 参考訳(メタデータ) (2026-03-17T13:11:14Z) - Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS [10.019926246026928]
外科的スピーチは、補助技術を開発する上で重要な課題である。
近年のニューラル音声合成、特にゼロショット音声クローニングは、データ拡張のための合成音声生成を促進する。
TORGOデータセットを用いた変形性関節症音声のクローニングにおける最先端F5-TTSの有効性について検討した。
論文 参考訳(メタデータ) (2025-08-07T07:39:48Z) - Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [49.31519786009296]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。
次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。
生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文 参考訳(メタデータ) (2025-05-20T20:03:45Z) - Accurate synthesis of Dysarthric Speech for ASR data augmentation [5.223856537504927]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
本稿では,ASRトレーニングデータ拡張を目的とした新しい音声合成法を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:42:24Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Improving Dysarthric Speech Intelligibility Using Cycle-consistent
Adversarial Training [4.050982413149992]
本研究の目的は,Cycle-Consistent GANを用いた難聴から健全な音声変換のためのモデルを開発することである。
ジェネレータは、関節をスペクトル領域の健全な音声に変換するように訓練され、その後音声に変換される。
論文 参考訳(メタデータ) (2020-01-10T01:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。