論文の概要: A Validation-Gated Mechanistic Account of Suicidality Detection in LLMs
- arxiv url: http://arxiv.org/abs/2606.21078v1
- Date: Fri, 19 Jun 2026 03:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 08:32:14.334567
- Title: A Validation-Gated Mechanistic Account of Suicidality Detection in LLMs
- Title(参考訳): LLMの正当性検出に関する検証付き機械的考察
- Authors: Nafiz Ahmed, Sarah Sharif, Dingjing Shi, Mike Banad,
- Abstract要約: モデルの内部的特徴について、より信頼性の高い因果的主張をする方法について研究する。
私たちのバリデーション付きフレームワークは、モデルがそれを実行した後にのみ振る舞いを解釈します。
キーワードベースではなくセマンティックに見え、決定に因果的に関係している中間ネットワーク機能を見つけます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models are increasingly proposed for mental-health applications such as detecting suicidal content, raising the question of what they rely on. We study this mechanistically and use it to ask a narrower question: how to make a causal claim about a model's internal features more trustworthy. Our validation-gated framework, with suicidality detection as a case study, interprets a behavior only after the model is shown to perform it: a concept is admitted only once the model ranks it above a simple lexical baseline, and each subsequent property is tested against a matched control. This discipline yields negative as well as positive results. The gate rules out one task at the outset: on DeepSuiMind (Li et al. 2025), Llama-3.1-8B-Instruct cannot separate implicit suicidal intent from ordinary distress, so we do not analyze it. We turn to binary suicide detection, which it does perform. There we find a mid-network feature that appears semantic rather than keyword-based, is causally implicated in the decision (ablating it degrades the judgment; a random direction does not), is low-rank, and recurs across three model families and three suicide datasets. A register-matched control (suicide versus depression) suggests it tracks suicidality more specifically than general distress. Steering raises the model's response, but for unrelated questions too, so we treat it as necessary but not sufficient. The clearest pattern separates encoding from use: smaller models already represent suicidality, yet only larger ones appear to act on it. The positive evidence is English Reddit text, which limits the clinical reading.
- Abstract(参考訳): 自殺的内容の検出や、彼らが依存しているものへの疑問の提起など、メンタルヘルスの応用のために、大規模な言語モデルがますます提案されている。
モデルの内部機能に関する因果的主張をより信頼できるものにする方法。
提案手法は,モデルが単純な語彙ベースラインの上位にランク付けした後にのみ認識され,その後,各特性が一致した制御に対して検証される。
この規律は否定的な結果と肯定的な結果をもたらす。
DeepSuiMind (Li et al 2025)では、Llama-3.1-8B-Instructは通常の苦難から暗黙の自殺意図を分離できないので、分析はしない。
私たちは二分自殺検知に切り替え、それを実行します。
そこでは、キーワードベースではなくセマンティックなように見える中間ネットワーク機能を見つけ、決定に因果的に関与し(判断を分解するが、ランダムな方向はしない)、低ランクで、3つのモデルファミリーと3つの自殺データセットに再帰する。
レジスタ適合型コントロール(自殺対うつ病)は、一般的な苦痛よりも自殺を特に追跡していることを示唆している。
ステアリングはモデルの反応を上昇させるが、関係のない質問にも影響する。
最も明確なパターンは、エンコーディングと使用を区別する: より小さなモデルは、既に自殺を表現しているが、それに対して作用しているのはより大きなモデルのみである。
肯定的な証拠は英語のRedditテキストであり、臨床読影を制限する。
関連論文リスト
- How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Evaluating Reasoning LLMs for Suicide Screening with the Columbia-Suicide Severity Rating Scale [0.0]
コロンビア・自殺評価尺度(C-SSRS)を用いた大規模言語モデルの自殺リスク自動評価能力の評価を行った。
7点重度尺度におけるClaude, GPT, Mistral, LLaMA-in分類ポストを含む6種類のモデルのゼロショット性能を評価する(レベル0-6)。
その結果,Claude と GPT は人間のアノテーションと密接に一致し,Mistral は最小の順序予測誤差を達成していることがわかった。
論文 参考訳(メタデータ) (2025-05-11T23:55:27Z) - The Geometry of Self-Verification in a Task-Specific Reasoning Model [45.669264589017665]
我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。
モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンおよびボトムアップの分析を行います。
論文 参考訳(メタデータ) (2025-04-19T18:40:51Z) - SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - Leveraging Large Language Models for Suicide Detection on Social Media with Limited Labels [3.1399304968349186]
本稿では,テキストベースのソーシャルメディア投稿における自殺的内容を自動的に検出するLarge Language Models (LLMs) について検討する。
我々は,Qwen2-72B-インストラクションの促進とLlama3-8B,Llama3.1-8B,Gemma2-9Bなどの微調整モデルを用いたアンサンブルアプローチを開発した。
実験の結果,アンサンブルモデルでは個々のモデルと比較して5%の精度で検出精度が向上した。
論文 参考訳(メタデータ) (2024-10-06T14:45:01Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - An ensemble deep learning technique for detecting suicidal ideation from
posts in social media platforms [0.0]
本稿ではLSTM-Attention-CNN複合モデルを提案する。
提案されたモデルは90.3%の精度、F1スコア92.6%の精度を示した。
論文 参考訳(メタデータ) (2021-12-17T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。