論文の概要: Beyond Accuracy: Interpreting Topic Representation in Suicide Ideation Detection Models
- arxiv url: http://arxiv.org/abs/2606.07714v1
- Date: Fri, 05 Jun 2026 14:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.311097
- Title: Beyond Accuracy: Interpreting Topic Representation in Suicide Ideation Detection Models
- Title(参考訳): 精度を超えて:自殺観念検出モデルにおけるトピック表現の解釈
- Authors: Hamideh Ghanadian, Isar Nejadgholi, Hussein Al Osman,
- Abstract要約: 我々は,自殺検出モデルが内部表現空間における心理的危険因子をエンコードする方法を分析する。
以上の結果から, トピック認識の増大は, 心理社会的リスク因子の明瞭度と明瞭度を高めることが示唆された。
- 参考スコア(独自算出の注目度): 5.390675870849208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Suicide ideation detection models are typically evaluated using aggregate performance metrics, yet little is known about how they internally represent psychologically meaningful risk factors. In high-stakes mental health applications, understanding these internal representations is essential for safety, transparency, and responsible deployment. In this work, we move beyond accuracy and analyze how suicide detection models trained on original and topic-augmented datasets encode psychological risk factors in their internal representation space. Using visualization and geometric analysis, we examine the coherence and separability of topic-related features. Our results show that topic-aware augmentation increases the clarity and distinctness of underrepresented psychosocial risk factors such as immigration, family issues, and financial crisis. These findings suggest that augmentation not only improves model performance but also leads to more structured and interpretable internal representations.
- Abstract(参考訳): 自殺思考検出モデルは通常、総合的なパフォーマンス指標を用いて評価されるが、それらが心理的に有意なリスク要因を内部的にどのように表すかについてはほとんど分かっていない。
高リスクのメンタルヘルスアプリケーションでは、これらの内部表現を理解することは、安全性、透明性、責任あるデプロイメントに不可欠である。
本研究は,自殺検出モデルが内部表現空間における心理的リスク因子をエンコードする,オリジナルおよびトピック拡張データセットで訓練された自殺検出モデルについて,正確性を超えて分析する。
可視化と幾何解析を用いて,トピック関連特徴のコヒーレンスと分離性を検討した。
以上の結果から,家族問題や金融危機などの社会的リスク要因の明確化や明確化が促進されることが示唆された。
これらの結果から,拡張はモデル性能を向上するだけでなく,構造的,解釈可能な内部表現をもたらすことが示唆された。
関連論文リスト
- Mechanistic Decoding of Cognitive Constructs in Large Language Models [0.0]
本稿では,表現工学に基づく認知的リバースエンジニアリングフレームワークを提案する。
評価理論を部分空間化、回帰に基づく重み付け、双方向因果操りと組み合わせることで、2つの心理学的先駆者(妬み)を分離・定量化する。
また, 有害な情動状態が機械的に検出され, 外科的に抑制される可能性を示し, マルチエージェント環境におけるAIの安全性に対する表現的モニタリングと介入への道のりが示唆された。
論文 参考訳(メタデータ) (2026-04-16T03:54:03Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Investigating VLM Hallucination from a Cognitive Psychology Perspective: A First Step Toward Interpretation with Intriguing Observations [60.63340688538124]
幻覚は、視覚言語モデル(VLM)で積極的に研究されている長年の問題である。
既存の研究は、幻覚は技術的な制限や梅毒のバイアスによるもので、後者はモデルがユーザの期待に沿う誤った回答を生み出す傾向があることを意味している。
本研究では, VLMの認知バイアスを分類し, サイコフィナンシー, 論理的不整合, 新たに同定された VLM の行動, 権威へのアピールなど, 幻覚へと導く。
論文 参考訳(メタデータ) (2025-07-03T19:03:16Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [78.20380492883022]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Explaining Humour Style Classifications: An XAI Approach to Understanding Computational Humour Analysis [0.21847754147782888]
本稿では、ユーモアスタイルの分類を理解するための説明可能なAIフレームワークを提案する。
我々は、言語的、感情的、意味的な特徴がユーモアスタイルの分類決定にどのように貢献するかを分析するために、総合的なXAI手法を適用した。
本研究は,算術的ユーモア分析の理論的理解と,メンタルヘルス,コンテンツモデレーション,デジタル人文科学研究の実践的応用に寄与する。
論文 参考訳(メタデータ) (2025-01-06T10:08:56Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。