論文の概要: Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue
- arxiv url: http://arxiv.org/abs/2606.17973v1
- Date: Tue, 16 Jun 2026 14:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.478689
- Title: Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue
- Title(参考訳): AIメンタルヘルス対話を用いた受動的抑うつ度推定のための微調整LDM
- Authors: Olivier Tieleman, Ziyi Zhu, Ting Su, Samuel J. Bell, Thomas D. Hull, Caitlin A. Stamatis,
- Abstract要約: うつ病は世界の障害の主要な原因であり、症状の早期発見は時間的介入に不可欠である。
我々は、ユーザーが自己申告措置を完了することなく、AIメンタルヘルスプラットフォームにおける受動的かつ継続的な症状モニタリングを提案する。
- 参考スコア(独自算出の注目度): 4.051184721197422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depression is the leading cause of disability worldwide, and early detection of symptom change is essential for timely intervention. Validated instruments such as the Patient Health Questionnaire-9 (PHQ-9) support symptom monitoring at scale, but real-world completion rates are low, introducing response bias and systematic missingness. Passive approaches that infer severity from routinely generated data could close this gap. We address this by predicting PHQ-9 total scores directly from transcripts of conversations between users and an AI mental health application, requiring only conversation text and no additional clinical data. We fine-tune a Qwen3.5-27B backbone with a regression head, augment 3,111 ground-truth labels with pseudolabels generated by a reasoning model (Claude Opus) and iteratively trained intermediate models, for a combined dataset of 6,283 users. On a held-out test set of 842 users, our best model achieves MAE = 2.6, RMSE = 4.0, Pearson r = 0.80, and AUC = 0.91 at the PHQ-9 >= 10 clinical threshold. We also find AUC > 0.87 at every severity threshold from PHQ-9 >= 3 to PHQ-9 >= 24, demonstrating that the model captures depression severity across the full clinical spectrum. This work opens the door to passive, continuous symptom monitoring in AI mental health platforms, without requiring users to complete self-report measures.
- Abstract(参考訳): うつ病は世界の障害の主要な原因であり、症状の早期発見は時間的介入に不可欠である。
PHQ-9(Patent Health Questionnaire-9)のような検証済みの機器は、大規模に症状モニタリングをサポートするが、実際の完成率は低く、応答バイアスと体系的な欠如をもたらす。
日常的に生成されたデータから重大性を推測するパッシブアプローチは、このギャップを埋める可能性がある。
我々は、ユーザーとAIのメンタルヘルスアプリケーション間の会話の書き起こしから直接PHQ-9の合計スコアを予測し、会話テキストのみを必要とし、追加の臨床データも必要としない。
回帰ヘッド付きQwen3.5-27Bバックボーンと,推論モデル(Claude Opus)と反復的に訓練された中間モデルによって生成された擬似ラベル付き3,111個のグランドトラスラベルを,合計6,283人のユーザに対して微調整する。
842名の健常者を対象に,MAE = 2.6,RMSE = 4.0,Pearson r = 0.80,AUC = 0.91,PHQ-9 >= 10 臨床閾値を得た。
また, AUC > 0.87 は PHQ-9 >= 3 から PHQ-9 >= 24 までの全ての重症度閾値において, モデルが全臨床スペクトルにわたってうつ病重症度を捉えていることを示す。
この研究は、AIのメンタルヘルスプラットフォームにおける受動的で継続的な症状モニタリングの扉を開く。
関連論文リスト
- Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews [17.404708771543188]
認知症とうつ病は老年者で最も多い神経精神疾患である。
我々は、GDS(Global Deterioration Scale)と整合した、観測者ベースのGDS(Global Depression Scale)を導入する。
論文 参考訳(メタデータ) (2026-06-16T15:01:30Z) - Predicting Neuromodulation Outcome for Parkinson's Disease with Generative Virtual Brain Model [95.41752463487008]
パーキンソン病は世界中で1千万人以上に影響している。
個人間変異は経験的治療の選択を制限し、非無視的な外科的リスクとコストを増大させる。
我々は、このギャップをトレーニング済みのファインタニングフレームワークで埋めて、静止状態fMRIから直接結果を予測する。
論文 参考訳(メタデータ) (2026-03-31T02:36:10Z) - Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters [13.125686189457369]
うつ病はプライマリケアでは診断されていないが、タイムリーな識別は依然として重要である。
初診時1,108例のうつ病の自動検出について検討した。
論文 参考訳(メタデータ) (2026-03-11T21:08:55Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - LLM Assistance for Pediatric Depression [2.1398676192061683]
本研究は,小児期における抑うつ的症状抽出のための最先端LPMの実現可能性について検討した(年齢6~24歳)。
Flanは平均F1: 0.65, 精度: 0.78) で, 睡眠障害 (F1: 0.92) や自覚症状 (F1: 0.8) などの稀な症状の抽出に優れていた。
Llama 3は、最も高いリコール(0.90)を持ち、症状を過度に一般化し、この種の分析には適さない。
論文 参考訳(メタデータ) (2025-01-29T09:27:27Z) - Enhancing Depression Diagnosis with Chain-of-Thought Prompting [1.8532406942078647]
我々は,患者健康アンケート8(PHQ-8)のスコアを評価するためのチェーン・オブ・シント(CoT)を用いることで,AIモデルによるスコアの精度が向上すると考えている。
私たちの目標は、AIモデルによる人間の会話の複雑さに対する理解を広げ、患者の感情やトーンをより効果的に評価できるようにすることです。
論文 参考訳(メタデータ) (2024-08-26T07:19:07Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。