論文の概要: Expert-Level Crisis Detection in Mental Health Conversations
- arxiv url: http://arxiv.org/abs/2606.10380v1
- Date: Tue, 09 Jun 2026 03:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.303598
- Title: Expert-Level Crisis Detection in Mental Health Conversations
- Title(参考訳): メンタルヘルス会話におけるエキスパートレベル危機検出
- Authors: Grace Byun, Abigail Lott, Rebecca Lipschutz, Sean T. Minton, Elizabeth A. Stinson, Jinho D. Choi,
- Abstract要約: CRADLE-ダイアログ(CRADLE-Dialogue)は,会話環境下でのターンレベルの危機検出のための臨床診断用ベンチマークである。
データセットには600の対話と,臨床上のリスクに対するマルチラベルアノテーションが含まれている。
本稿では,早期警報信号(アラート)を,特定の危機が明確に識別可能なターンと区別するアラート確認評価プロトコルを提案する(確認)。
- 参考スコア(独自算出の注目度): 7.830103991641948
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world crisis intervention is inherently conversational, yet existing research largely focuses on static texts.Real-world crisis intervention is inherently conversational, yet existing research largely focuses on static texts. When applied to multi-turn dialogues, current models exhibit significant performance degradation, struggling to track risk signals that emerge as context evolves. To address this gap, we introduce CRADLE-Dialogue, a clinician-annotated benchmark for turn-level crisis detection in conversational settings. The dataset features 600 dialogues with multi-label annotations across clinically grounded risks, including suicide ideation, self-harm, and child abuse, distinguishing past from ongoing risk. We further propose an Alert-Confirm evaluation protocol that distinguishes early warning signals (Alert) from turns where a specific crisis becomes explicitly identifiable (Confirm), reflecting the clinical need to intervene before risk becomes explicit. Experiments show that identifying when risk emerges is much harder than recognizing that it exists: models achieve only mid-40% to high-60% Micro F1. Additionally, we release a synthetic training corpus and a 32B-parameter model that substantially outperforms existing open-source models and achieves competitive or superior results against proprietary models across turn-level, dialogue-level, and confirm-only evaluation settings.
- Abstract(参考訳): 現実世界の危機介入は本質的に会話的だが、既存の研究は静的テキストに重点を置いており、現実の危機介入は本質的に会話的だが、既存の研究は静的テキストに重点を置いている。
マルチターンダイアログに適用した場合、現在のモデルではパフォーマンスが著しく低下しており、コンテキストが進化するにつれて発生するリスク信号を追跡するのに苦労している。
このギャップに対処するため,CRADLE-Dialogueは,会話環境下でのターンレベルの危機検出のための臨床診断用ベンチマークである。
このデータセットは、自殺のアイデア、自己修復、児童虐待など、臨床に根ざしたリスクにまたがる多ラベルのアノテーションと600の対話を特徴とし、過去と進行中のリスクを区別している。
また,早期の警告信号(アラート)と,特定の危機が明確に特定可能なターン(確認)とを区別するアラート確認評価プロトコルを提案する。
実験によると、リスクの発生時期を特定することは、それが存在することを認識するよりもはるかに難しい。
さらに,既存のオープンソースモデルよりも大幅に優れ,ターンレベル,ダイアログレベル,確認専用評価設定のプロプライエタリモデルに対して,競合的あるいは優れた結果が得られる合成トレーニングコーパスと32Bパラメータモデルをリリースする。
関連論文リスト
- Reverse Probing: Supervised Token-level Uncertainty Quantification for Large Language Models in Clinical Text [4.737321357710923]
本稿では,既存のラベル付き要約から直接トークンレベルの不確実性を推定するReverse Probingを提案する。
Reverse Probingは、テキストをモデルの内部状態へのプローブとして扱い、内部アクティベーションの4つのカテゴリから不確実な信号を抽出する。
専門家による2つの臨床データセットで評価し、すべての指標で8つの適応ベースラインを上回りました。
論文 参考訳(メタデータ) (2026-05-27T17:01:04Z) - CRADLE Bench: A Clinician-Annotated Benchmark for Multi-Faceted Mental Health Crisis and Safety Risk Detection [8.296902072126182]
我々は,多面的危機検出のベンチマークであるCRADLE BENCHを紹介する。
本ベンチマークでは,600名の臨床医による評価例と420名の開発例を提供する。
コンセンサスおよび全会一致で定義されたサブセット上での6つの危機検出モデルをさらに微調整する。
論文 参考訳(メタデータ) (2025-10-27T20:32:38Z) - Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs [9.291589998223696]
MedQA-Followupは,医療質問応答におけるマルチターンロバスト性を評価するためのフレームワークである。
MedQAデータセットの制御介入を用いて、5つの最先端LCMを評価する。
モデルは浅瀬の摂動下では合理的に良好に機能するが、マルチターン設定では深刻な脆弱性が現れる。
論文 参考訳(メタデータ) (2025-10-14T08:04:18Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - A Risk Ontology for Evaluating AI-Powered Psychotherapy Virtual Agents [13.721977133773192]
大言語モデル (LLMs) と知的仮想エージェント (Intelligent Virtual Agents) は精神療法士として機能し、メンタルヘルスアクセスを拡大する機会を提供する。
彼らの展開は、ユーザーの損害や自殺など、深刻な有害な結果にも結びついている。
我々は、会話型AI心理療法士の体系的評価に特化して設計された新しいリスクオントロジーを導入する。
論文 参考訳(メタデータ) (2025-05-21T05:01:39Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - Non-Invasive Suicide Risk Prediction Through Speech Analysis [74.8396086718266]
自動自殺リスク評価のための非侵襲的音声ベースアプローチを提案する。
我々は、wav2vec、解釈可能な音声・音響特徴、深層学習に基づくスペクトル表現の3つの特徴セットを抽出する。
我々の最も効果的な音声モデルは、6.6.2,%$のバランスの取れた精度を達成する。
論文 参考訳(メタデータ) (2024-04-18T12:33:57Z) - Epidemic mitigation by statistical inference from contact tracing data [61.04165571425021]
我々は,個人が感染するリスクを推定するためにベイズ推定法を開発した。
本稿では,感染防止のための検査・隔離戦略を最適化するために,確率論的リスク推定手法を提案する。
我々のアプローチは、最近接触した個人間の通信のみを必要とする、完全に分散されたアルゴリズムに変換されます。
論文 参考訳(メタデータ) (2020-09-20T12:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。