論文の概要: What Does a Pathological Speech Assessment Model Know about Acoustic Features? A Case Study on Oral and Oropharyngeal Cancer Patients
- arxiv url: http://arxiv.org/abs/2606.24949v1
- Date: Tue, 23 Jun 2026 07:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.066151
- Title: What Does a Pathological Speech Assessment Model Know about Acoustic Features? A Case Study on Oral and Oropharyngeal Cancer Patients
- Title(参考訳): 音響的特徴に関する病理的音声評価モデルは何を知っているか? : 口腔・咽頭癌患者を事例として
- Authors: Tuan Nguyen, Corinne Fredouille, Alain Ghio, Muriel Lalain, Virginie Woisard,
- Abstract要約: 本研究は, 口腔・口腔咽頭癌患者に対するWav2Vec 2.0に基づく音声明瞭度評価モデルの解釈可能性について検討した。
モデル埋め込みとeGeMAPS低レベル記述子との相関を解釈可能な参照として測定することにより、モデル層間の音響情報のエンコード方法を分析する。
- 参考スコア(独自算出の注目度): 9.252677118395546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates the interpretability of a Wav2Vec 2.0based speech intelligibility assessment model for oral and oropharyngeal cancer patients through canonical correlation analysis. By measuring the correlation between the model embeddings and eGeMAPS low-level descriptors (LLDs) as an interpretable reference, we analyze how acoustic information is encoded across the model layers. The analysis is conducted at two levels: individual LLDs layer-wise, and group-level: prosodic, spectral, and voice quality. Results show that the learned representations are most strongly correlated with spectral and prosodic features, with the first MFCC coefficient yielding the highest correlations across all layers. At the group level, spectral and prosodic groups achieve correlations of 0.77 and 0.71 respectively, while voice quality reaches 0.65. Beyond model interpretability, this work also offers practical guidance on acoustic feature selection for pathological speech assessment.
- Abstract(参考訳): 本研究は, 口腔癌および口腔咽頭癌に対するWav2Vec 2.0に基づく音声明瞭度評価モデルの解釈可能性について, 正準相関解析を用いて検討した。
モデル埋め込みとeGeMAPS低レベル記述子(LLD)との相関を解釈可能な参照として測定することにより、モデル層間の音響情報のエンコード方法を分析する。
この分析は、個々のLDDを階層的に、グループレベルで、韻律、スペクトル、声質の2段階に分けて行われる。
その結果,学習された表現はスペクトルおよび韻律的特徴と最も強く相関しており,第1のMFCC係数は全層に最も相関していることがわかった。
グループレベルでは、スペクトル群と韻律群はそれぞれ0.77と0.71の相関を達成し、声質は0.65に達する。
本研究は,モデル解釈性以外にも,病的音声評価のための音響特徴選択の実践的ガイダンスも提供する。
関連論文リスト
- Multimodal Graph-based Classification of Esophageal Motility Disorders [73.90451172929117]
食道運動障害の診断は,高分解能インピーダンス測定データの複雑化と臨床解釈の多様性が原因で大きな課題となる。
本研究は,HRIM記録と患者固有の情報を組み合わせたマルチモーダル機械学習に基づく分類手法の実現可能性について検討し,食道生理学のグラフベースモデリングを取り入れた。
論文 参考訳(メタデータ) (2026-05-13T14:52:12Z) - PulmoVec: A Two-Stage Stacking Meta-Learning Architecture Built on the HeAR Foundation Model for Multi-Task Classification of Pediatric Respiratory Sounds [0.0]
PulmoVecは、小児呼吸音の分類のためのマルチタスクフレームワークである。
事象レベルの音響表現型と患者レベルの臨床分類を結びつける。
論文 参考訳(メタデータ) (2026-03-15T21:13:47Z) - Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment [42.97456036889799]
古典的な放射能の特徴は、画像の外観と強度パターンを定量化するように設計されている。
近年の適応放射能の研究では、DLを用いて放射能プール上の特徴量を予測する。
本稿では,患者ごとにひとつのコンパクトな特徴セットを予測できる,患者固有の特徴セット選択フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-02T20:12:41Z) - Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals [0.49581497240446293]
本研究では,呼吸音信号を用いた自動肺不全検出のためのマルチモーダル深層学習フレームワークを提案する。
このフレームワークにはGrad-CAM、Integrated Gradients、SHAPが含まれており、解釈可能なスペクトル、時間、特徴レベルの説明を生成する。
この結果は、遠隔医療、ポイント・オブ・ケアの診断、および実際の呼吸スクリーニングに対するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-11-29T17:15:58Z) - Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions [14.745982411183766]
プライバシを意識したマルチタスク学習フレームワークであるMARVELを,9つの異なる神経・呼吸・音声障害を同時に検出する。
当社のフレームワークは, シングルモーダルベースラインを5~19%上回り, 9タスクのうち7タスクにおいて最先端の自己監督モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-28T12:37:25Z) - Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations [39.31175048498422]
本研究では,声質評価ネットワーク (VOQANet) を提案する。
また,低レベル音声記述子であるjitter,shimmer,haronics-to-noise ratio(HNR)とSFMをハイブリッド表現に組み込んだVOQANet+を導入する。
以上の結果から,特に患者レベルでの母音による入力は,音声属性を抽出する発話の長大さに優れることがわかった。
論文 参考訳(メタデータ) (2025-05-27T15:48:17Z) - Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models [7.774205081900019]
頭頸部癌(HNC)は、患者の発話能力に大きな影響を与え、生活の質に影響を及ぼす。
本研究では,HNC患者を対象とした音声分類のための自己教師型Wav2Vec2モデルを提案する。
論文 参考訳(メタデータ) (2024-06-07T08:51:52Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。