論文の概要: Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention
- arxiv url: http://arxiv.org/abs/2606.09271v1
- Date: Mon, 08 Jun 2026 09:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.904451
- Title: Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention
- Title(参考訳): コンテキスト誘導型クロスモーダルアテンションを用いたパーキンソン病検出のための多視点音声表現学習
- Authors: George Theodosiou, Loukas Ilias, Dimitris Askounis,
- Abstract要約: 本稿では,パーキンソン病の自動検出のためのマルチブランチ深層学習フレームワークを提案する。
提案したアーキテクチャは91.51%の精度、F1スコアは91.24%、AUCは95.97%である。
- 参考スコア(独自算出の注目度): 9.395262542018235
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Parkinson's disease (PD) is a progressive neurodegenerative disorder that frequently causes speech impairments associated with hypokinetic dysarthria. As speech production relies on the precise coordination of complex neuromuscular mechanisms, speech analysis has emerged as a promising non-invasive and cost-effective biomarker for early PD detection. Recent deep learning approaches have shown encouraging results; however, most existing methods rely on a single speech representation, potentially overlooking complementary pathological information encoded across different feature spaces. In this work, we propose a multi-branch deep learning framework for automatic PD detection from speech. Each recording is segmented into 5-second chunks and represented using three complementary modalities: Log-Mel spectrograms, MFCCs, and HuBERT embeddings extracted from raw waveforms. The spectrograms are processed using a pre-trained ResNet-18 encoder, MFCC sequences are modeled through a BiLSTM network, and raw speech is encoded using a pre-trained HuBERT model. To effectively integrate these heterogeneous representations, we introduce a context-guided cross-modal attention mechanism that dynamically weights temporal HuBERT embeddings according to the global acoustic context derived from the spectrogram and MFCC branches. Experiments conducted on the publicly available Spanish PC-GITA corpus under strict speaker-independent 5-fold cross-validation demonstrate the effectiveness of the proposed approach. The proposed architecture achieves an accuracy of 91.51%, an F1-score of 91.24%, and an AUC of 95.97%. Furthermore, ablation studies confirm the contribution of both the proposed context-guided cross-modal attention mechanism and the integration of complementary speech representations. These findings highlight the potential of heterogeneous speech modeling for robust and clinically reliable PD detection.
- Abstract(参考訳): パーキンソン病(パーキンソンしょう、英: Parkinson's disease、PD)は、進行性神経変性疾患である。
音声生成は複雑な神経筋機構の正確な調整に依存しているため、音声解析は早期PD検出のための有望な非侵襲的で費用対効果の高いバイオマーカーとして登場した。
近年の深層学習のアプローチは,多くの既存手法は単一音声表現に依存しており,様々な特徴空間にまたがって符号化された相補的病理情報を見落としている可能性がある。
本研究では,音声からのPD自動検出のためのマルチブランチディープラーニングフレームワークを提案する。
各記録は5秒のチャンクに分割され、生波形から抽出されたログメル分光図、MFCC、HuBERTの3つの相補的なモードで表現される。
スペクトルは事前訓練されたResNet-18エンコーダを用いて処理され、MFCCシーケンスはBiLSTMネットワークを介してモデル化され、生音声は事前訓練されたHuBERTモデルを用いて符号化される。
これらの異種表現を効果的に統合するために,時間的HuBERT埋め込みをスペクトログラムとMFCC分岐から派生した大域的音響文脈に応じて動的に重み付けするコンテキスト誘導型モーダルアテンション機構を導入する。
厳密な話者に依存しない5倍のクロスバリデーションの下で, スペイン産PC-GITAコーパスで実施した実験は, 提案手法の有効性を示した。
提案したアーキテクチャは91.51%の精度、F1スコアは91.24%、AUCは95.97%である。
さらに、アブレーション研究は、提案した文脈誘導型クロスモーダルアテンション機構と相補的な音声表現の統合の両方の寄与を確認した。
これらの結果から,頑健かつ臨床的に信頼性の高いPD検出のための異種音声モデリングの可能性が示唆された。
関連論文リスト
- A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning [10.559333552210434]
アルツハイマー病は認知症の主要な原因であり、記憶、推論、コミュニケーション、日常生活に影響を及ぼす。
近年の研究では、自発音声には認知症に関連する貴重な言語的・音響的バイオマーカーが含まれていることが示されている。
本稿では,言語情報と書き起こし情報をエンドツーエンドのトレーニング可能な方法で共同で活用する,認知症自動検出のためのマルチモーダルディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T07:57:49Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals [0.49581497240446293]
本研究では,呼吸音信号を用いた自動肺不全検出のためのマルチモーダル深層学習フレームワークを提案する。
このフレームワークにはGrad-CAM、Integrated Gradients、SHAPが含まれており、解釈可能なスペクトル、時間、特徴レベルの説明を生成する。
この結果は、遠隔医療、ポイント・オブ・ケアの診断、および実際の呼吸スクリーニングに対するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-11-29T17:15:58Z) - From Black Box to Biomarker: Sparse Autoencoders for Interpreting Speech Models of Parkinson's Disease [9.968776083852813]
パーキンソン病(PD)などの神経疾患に対する費用対効果と非侵襲的バイオマーカーとしての言論
音声に基づくPD検出システムから解釈可能な内部表現を明らかにするために,スパースオートエンコーダ(SAE)を適用した。
我々は,SAEを小さなバイオメディカルデータセットに適用するための新しいマスクベースのアクティベーションを導入する。
論文 参考訳(メタデータ) (2025-07-16T16:22:02Z) - Detecting Neurocognitive Disorders through Analyses of Topic Evolution and Cross-modal Consistency in Visual-Stimulated Narratives [83.15653194899126]
神経認知障害(NCD)の早期発見は、時間的介入と疾患管理に不可欠である。
現在のVSNベースのNCD検出法は主にボトムアップ、刺激駆動認知プロセスと密接に結びついている言語マイクロ構造に焦点を当てている。
本稿では,話題の時間的変化を追跡する動的トピックモデル(DTM)と,物語と視覚刺激の相互整合性を測定するテキスト画像時間アライメントネットワーク(TITAN)の2つの新しいマクロ構造手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T12:16:26Z) - Unveiling Interpretability in Self-Supervised Speech Representations for Parkinson's Diagnosis [9.91077163490596]
本稿では,パーキンソン病の診断を支援するための新しい枠組みを提案する。
提案するフレームワークは, 単純かつ効果的なクロスアテンション機構の設計を通じて, 2つの異なる相補的視点から解釈可能性を提供する。
提案手法は最先端の手法と競合すると同時に,言語間シナリオにおける堅牢性も実証する。
論文 参考訳(メタデータ) (2024-12-02T22:23:43Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。