論文の概要: Systematic Study of Dysarthric Speech Recognition: Spectral Features and Acoustic Models
- arxiv url: http://arxiv.org/abs/2606.19793v1
- Date: Thu, 18 Jun 2026 04:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.653749
- Title: Systematic Study of Dysarthric Speech Recognition: Spectral Features and Acoustic Models
- Title(参考訳): 外科的音声認識の体系的研究:スペクトル特徴と音響モデル
- Authors: Paban Sapkota, Hemant Kumar Kathania, Mikko Kurimo, Sudarsana Reddy Kadiri, Shrikanth Narayanan,
- Abstract要約: 本稿では,異なる音響モデルに適した音響特性の組み合わせについて,包括的に検討する。
Pitchの組み込みは、特に文認識タスクにおいて、認識性能が顕著に向上している。
我々は,現在最先端の因子化時間遅延ニューラルネットワーク(F-TDNN)モデルの性能向上の可能性を示した。
- 参考スコア(独自算出の注目度): 48.10903631277461
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The challenge associated with recognizing dysarthric speech primarily arises from pronounced acoustic variability attributed to impaired articulatory precision. Past research has demonstrated improved recognition through the use of hybrid DNN/HMM sequence discriminative training. This paper presents a comprehensive investigation of various combinations of acoustic features tailored to different Acoustic Models, offering suitable feature selections for each. The incorporation of Pitch features notably improved recognition performance, especially for sentence recognition tasks involving dysarthric speech. Through a systematic examination of the TORGO database, we have demonstrated the potential to enhance the performance of the state-of-the-art Factorized Time Delay Neural Network (F-TDNN) model for recognizing dysarthric speech. Our methods, implemented with the F-TDNN model, resulted in a 4.65\% relative improvement in isolated word recognition and a 4.63\% relative improvement in sentence recognition for dysarthric speech, compared to previous research. This improvement effectively compensates for speech variability, attributable to our deliberate selection of the number of overlapping frames between consecutive training example chunks.
- Abstract(参考訳): 変形性音声の認識に関わる課題は主に、調音精度の低下に起因する発音の変動から生じる。
過去の研究は、ハイブリッドDNN/HMMシークエンス識別訓練を用いて、認識の向上を実証してきた。
本稿では,異なる音響モデルに適した音響特徴の組み合わせを総合的に検討し,それぞれに適切な特徴選択を提供する。
ピッチの組み込みは、特に変形性音声を含む文認識タスクにおいて、認識性能が顕著に向上している。
TORGOデータベースのシステマティックな検討を通じて,現在最先端の因子化時間遅延ニューラルネットワーク(F-TDNN)モデルの性能向上の可能性を示した。
F-TDNNモデルを用いて実施した本手法では, 単独単語認識では4.65 %, 変形性音声では4.63 %の相対的改善が得られた。
この改善は、連続した訓練例チャンク間の重なり合うフレームの数を意図的に選択することに起因する、音声の可変性を効果的に補償する。
関連論文リスト
- Cross-Dataset, Age, and Gender Generalization: A Comprehensive Analysis of Fine-Tuning Strategies for Low-Resource Children's ASR [48.10903631277461]
本稿では,異なる音響モデルに適した音響特性の組み合わせについて,包括的に検討する。
Pitchの組み込みは、特に文認識タスクにおいて、認識性能が顕著に向上している。
我々は,現在最先端の因子化時間遅延ニューラルネットワーク(F-TDNN)モデルの性能向上の可能性を示した。
論文 参考訳(メタデータ) (2026-06-18T04:56:00Z) - When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition [10.779774155043166]
我々は, 診断ラベル, 臨床医由来の音声評価, および徐々にリッチな臨床記述が, 変形性関節症音声の転写精度を向上させるかどうかを検証した。
診断インフォームドおよび臨床的に詳細なプロンプトは、無視できる改善をもたらし、しばしば単語誤り率を低下させる。
サブグループ分析により,ダウン症候群と軽度重度話者に有意な改善が認められた。
論文 参考訳(メタデータ) (2026-05-04T16:24:06Z) - DARS: Dysarthria-Aware Rhythm-Style Synthesis for ASR Enhancement [17.57351491665082]
そこで我々は,Matcha-TTS アーキテクチャをベースとした調律対応リズムスタイル合成フレームワーク DARS を提案する。
DARSは多段階のリズム予測器を、通常音声と変形音声のコントラスト的嗜好に最適化し、また、変形性スタイルの条件整合機構を組み込んでいる。
TORGOデータセットの実験では、DARSが4.29の平均ケプストラム歪み(MCD)を達成し、実際の変形音声を密接に近似している。
論文 参考訳(メタデータ) (2026-03-02T02:05:14Z) - Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition [40.44769351506048]
Perceiver-PromptはWhisperの大規模モデル上でP-Tuningを利用する話者適応手法である。
我々はまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合して可変長入力から固定長話者プロンプトを生成する。
論文 参考訳(メタデータ) (2024-06-14T09:36:46Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for
Improved Dysarthric Speech Recognition [24.07996218669781]
変形性音声の高機能化のためのGAN音声変換法について検討した。
定常雑音除去やボコーダに基づく時間ストレッチといった単純な信号処理手法は,最新のGANベースの音声変換法で得られるものと同等の変形性音声認識結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-01-13T11:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。