論文の概要: Segment-Level Mandarin Chinese Speech-Based Cognitive Impairment Detection via an Autoencoder with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2606.19996v2
- Date: Mon, 22 Jun 2026 08:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.905096
- Title: Segment-Level Mandarin Chinese Speech-Based Cognitive Impairment Detection via an Autoencoder with Contrastive Learning
- Title(参考訳): コントラスト学習型オートエンコーダを用いた中国語音声によるセグメントレベルマンダリン認知障害検出
- Authors: Yongqi Shao, Hong Huo, Flavio Bertini, Danilo Montesi, Tao Fang,
- Abstract要約: 音声は低コストで非侵襲的なデジタルバイオマーカーとして登場し、認知障害の検出にかなりの可能性がある。
音声に基づく認知障害検出のためのセグメントレベル表現学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 10.638074190961921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \noindent\textbf{Background and Objective:} Speech has emerged as a low-cost and non-invasive digital biomarker with considerable potential for cognitive impairment detection. However, limited labeled data and cross-dataset variability remain major challenges for robust speech-based screening systems. \par\noindent\textbf{Methods:} We developed a segment-level representation learning framework for speech-based cognitive impairment detection. Speech recordings were divided into short segments and converted into spectrogram representations. To improve robustness under limited-data conditions, offline and online augmentation strategies were combined with autoencoder-based representation learning and contrastive objectives to enhance discriminative latent representations. \par\noindent\textbf{Results:} Experiments conducted on four independent Mandarin Chinese speech datasets demonstrated stable and competitive performance in both binary and three-class classification tasks, with particularly notable improvements in the clinically challenging three-class setting. Ablation studies further supported the effectiveness of the proposed framework. \par\noindent\textbf{Conclusions:} The findings suggest that segment-level speech representation learning may provide a scalable and practical approach for cognitive impairment screening in resource-constrained clinical settings.
- Abstract(参考訳): \noindent\textbf{Background and Objective:} 音声は低コストで非侵襲的なデジタルバイオマーカーとして出現し、認知障害の検出にかなりの可能性がある。
しかし、ロバストな音声ベースのスクリーニングシステムでは、ラベル付きデータとデータセット間のばらつきが大きな課題である。
音声に基づく認知障害検出のためのセグメントレベル表現学習フレームワークを開発した。
音声記録は短いセグメントに分割され、スペクトル表現に変換された。
限定データ条件下でのロバスト性向上のために、オフラインとオンラインの強化戦略とオートエンコーダに基づく表現学習と、差別的潜在表現を強化するための対照的な目的が組み合わされた。
\par\noindent\textbf{Results:} 4つの独立した中国語音声データセットを用いて行った実験は、二分詞と三分詞の両方の分類タスクにおいて安定かつ競争的な性能を示し、特に臨床的に困難な三分詞設定において顕著な改善が見られた。
アブレーション研究は、提案フレームワークの有効性をさらに支持した。
この結果から, セグメンテーションレベルの音声表現学習は, リソース制約のある臨床環境での認知障害スクリーニングに, スケーラブルで実践的なアプローチを提供する可能性が示唆された。
関連論文リスト
- Linguistic Indicators of Early Cognitive Decline in the DementiaBank Pitt Corpus: A Statistical and Machine Learning Study [4.417564179511245]
本研究では,3つの言語表現を用いて,DementiaBank Pitt Corpusからの自発音声の書き起こしを分析する。
構文的および文法的特徴は、語彙内容が欠如していても、強力な識別力を保持する。
本研究は,透明で信頼性の高い言語ベース認知スクリーニングにおける言語基盤機能の利用を支援する。
論文 参考訳(メタデータ) (2026-02-11T16:53:57Z) - Semi-Supervised Diseased Detection from Speech Dialogues with Multi-Level Data Modeling [27.224093715611534]
本稿では,音声から医療状況を検出するための新しい枠組みを提案する。
エンドツーエンドアプローチは,多粒度特徴を動的に集約し,高品質な擬似ラベルを生成する。
この研究は、医学的音声分析における弱い極端の監督から学ぶための原則的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-08T09:10:16Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Conditional Supervised Contrastive Learning for Fair Text Classification [59.813422435604025]
対照的な学習を通してテキスト分類のための等化オッズとして知られる公平性の概念を満たす学習公正表現について研究する。
具体的には、まず、公正性制約のある学習表現と条件付き教師付きコントラスト目的との間の関係を理論的に分析する。
論文 参考訳(メタデータ) (2022-05-23T17:38:30Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。