論文の概要: MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation
- arxiv url: http://arxiv.org/abs/2606.11197v1
- Date: Mon, 20 Apr 2026 14:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.821529
- Title: MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation
- Title(参考訳): MA-DLE:メモリ拡張による音声による自動抑うつレベル推定
- Authors: Xuzhi Wang, Xinran Wu, Ziping Zhao, Jianhua Tao, Björn W. Schuller,
- Abstract要約: 音声に基づく抑うつ状態の自動推定は、早期発見と時間的介入を可能にするために不可欠である。
既存のアプローチのほとんどは、うつ病推定のための時間情報をモデル化するためにRNNベースのアーキテクチャに依存している。
本稿では,GRU抽出した特徴の表現能力を向上するメモリベースの特徴拡張手法を提案する。
- 参考スコア(独自算出の注目度): 59.709198999959206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-based automatic estimation of depression levels is essential for enabling early detection and timely intervention, particularly in resource-constrained mental health settings. In recent years, deep learning has demonstrated impressive success across various domains, including affective computing and mental health assessment. Most existing approaches rely on RNN-based architectures (such as LSTM and GRU) to model temporal information for depression estimation. However, the extracted features often emphasize only a few adjacent speech segments, limiting their ability to capture long-range dependencies. To overcome this limitation, we introduce a memory-based feature augmentation method that enhances the representational capacity of GRU-extracted features. Rather than indiscriminately incorporating historical data, our memory bank is designed to selectively integrate two types of components in order to reduce redundancy and irrelevance: (1) historical temporal features that closely resemble the current GRU output, offering complementary contextual information; and (2) dynamic memory features identified based on feature variability, which capture behavioral and emotional fluctuations indicative of depressive symptoms. To effectively fuse the memory-augmented features with GRU outputs, we further design a Hierarchical Attention Fusion (HAF) module. Our method is evaluated on the widely used DAIC-WOZ and E-DAIC datasets, achieving state-of-the-art performance.
- Abstract(参考訳): 言語に基づく抑うつ状態の自動推定は、早期発見とタイムリーな介入を可能にするために不可欠である。
近年のディープラーニングは、感情コンピューティングやメンタルヘルスアセスメントなど、さまざまな領域で顕著な成功を収めている。
既存のアプローチのほとんどは、うつ病推定のための時間情報をモデル化するためにRNNベースのアーキテクチャ(LSTMやGRUなど)に依存している。
しかし、抽出された特徴はしばしば、隣接する音声セグメントのみを強調し、長距離依存関係をキャプチャする能力を制限する。
この制限を克服するために、GRU抽出された特徴の表現能力を高めるメモリベースの特徴拡張手法を提案する。
本研究の記憶バンクは, 歴史的データを無差別に取り入れるのではなく, 冗長性と無関係性を低減するために2種類のコンポーネントを選択的に統合するように設計されている。(1) 現在のGRU出力とよく似た時間的特徴, 相補的な文脈情報の提供, (2) 抑うつ症状を示す行動的・感情的変動を捉える特徴変動に基づく動的記憶機能。
メモリ拡張機能とGRU出力を効果的に融合させるため,階層型注意融合(HAF)モジュールをさらに設計する。
本手法は,DAIC-WOZおよびE-DAICデータセットを用いて評価し,最先端性能を実現する。
関連論文リスト
- From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey [211.01908189012184]
今年、何百もの論文が公開されたメモリは、ユーティリティギャップを埋めるための重要なソリューションとして現れます。
ファンデーションエージェントのメモリを3次元に統一したビューを提供する。
次に、異なるエージェントトポロジの下でメモリがどのようにインスタンス化され、操作されるかを分析する。
論文 参考訳(メタデータ) (2026-01-14T07:38:38Z) - LMILAtt: A Deep Learning Model for Depression Detection from Social Media Users Enhanced by Multi-Instance Learning Based on Attention Mechanism [2.398386906858336]
うつ病は世界的な公衆衛生上の大きな課題であり、早期の身元確認は極めて重要である。
本研究ではLMILAttモデルを提案し,Long Short-Term Memory Autoencoderとアテンション機構を統合した。
実験により、精度、リコール、F1スコアの点で、モデルがベースラインモデルよりもはるかに優れていることが示された。
論文 参考訳(メタデータ) (2025-09-30T11:58:32Z) - Innovative Framework for Early Estimation of Mental Disorder Scores to Enable Timely Interventions [0.9297614330263184]
本稿では,PTSDとうつ病の自動分類のための高度なマルチモーダル深層学習システムについて述べる。
提案手法は, うつ病では92%, PTSDでは93%の分類精度を達成し, 従来の単潮流法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-06T10:57:10Z) - Classification of Mild Cognitive Impairment Based on Dynamic Functional Connectivity Using Spatio-Temporal Transformer [30.044545011553172]
本稿では,dFC内における空間情報と時間情報の両方の埋め込みを共同で学習する新しい枠組みを提案する。
アルツハイマー病神経画像イニシアチブ(ADNI)から570回のスキャンを行った345名の被験者を対象に,提案手法の優位性を実証した。
論文 参考訳(メタデータ) (2025-01-27T18:20:33Z) - STANet: A Novel Spatio-Temporal Aggregation Network for Depression Classification with Small and Unbalanced FMRI Data [12.344849949026989]
時間的特徴と空間的特徴の両方を捉えるために,CNNとRNNを統合してうつ病を診断するための時空間アグリゲーションネットワーク(STANet)を提案する。
実験の結果、STANetは82.38%の精度と90.72%のAUCでうつ病診断性能に優れていた。
論文 参考訳(メタデータ) (2024-07-31T04:06:47Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。