論文の概要: PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.09697v1
- Date: Mon, 08 Jun 2026 16:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.498679
- Title: PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models
- Title(参考訳): 心理的安全:大規模言語モデルにおける心理的にインフォームドされた拒絶を誘発する
- Authors: Gianluca Barmina, Federico Torrielli, Sven Harms, Jacob Nielsen, Felix Mächtle, Stine Lyngsø Beltoft, Peter Schneider-Kamp, Thomas Eisenbarth, Lukas Galke Poech, Anne Lauscher,
- Abstract要約: 心理的安全リフレームは、証拠に基づく介入戦略に基づく構造化された支援コミュニケーションとして拒絶される。
500のプロンプトの検証セットでは、サイコセーフプロンプトは全体的な拒絶品質をジェネリックベースラインに対して28.1%改善する。
微調整は、ほぼ完全な拒絶と資源参照率を達成するが、応答の関連性は減少する。
- 参考スコア(独自算出の注目度): 20.805546078350524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.
- Abstract(参考訳): 大規模言語モデル(LLM)は、拒否されるべき要求に定期的に直面する。
しかし、拒絶自体が有用である。
危機、強制、またはエスカレート意図を含むリスクの高い相互作用では、非コンプライアンスの鈍化は、要求の背後にいる人のニーズをまだサポートしていないまま、直接的な害を防げる可能性がある。
我々は,エビデンスに基づく介入戦略に基づく構造的支援コミュニケーションとして拒否する心理的にインフォームドされた拒絶フレームワークであるサイコセーフを提示する。
心理安全を開発するために,5つの心理的に健全なリスクドメインにまたがる8019対のプロンプト応答コーパスを構築し,Qwen 3.5 27Bにプロンプトとパラメータ効率の微調整を適用した。
LLMの審査員によって評価され、人間の評価によって検証された500個のプロンプトのバランスの取れた検証セットにおいて、サイコセーフは、全体的な拒絶品質を28.1%向上させ、特に外部リソース参照(+46.8%)と心理的接地(+34.8%)において、非拒否タスクの下流のパフォーマンスを保っている。
微調整は、ほぼ完全な拒絶と資源参照率を達成するが、応答の関連性は減少する。
SORRY-Bench と XSTest のさらなる評価では、ドメイン内の堅牢性は強いが、ドメイン外の一般化は限られている。
関連論文リスト
- AI Safety Training Can be Clinically Harmful [15.31927635809423]
本稿では,250例の長期曝露療法シナリオと146例のCBT認知再構成演習の4つの生成モデルについて検討した。
全てのモデルは表面の承認 (0.91-1.00) でほぼ完璧に得点し、治療適性は4つのモデル中3つの最重度で0.22-0.33に低下した。
論文 参考訳(メタデータ) (2026-04-25T21:09:50Z) - Do No Harm: Exposing Hidden Vulnerabilities of LLMs via Persona-based Client Simulation Attack in Psychological Counseling [26.601098750859048]
パーソナリティベースのクライアントシミュレーション攻撃(PCSA)は、コヒーレントでペルソナ駆動のクライアント対話を通じて、心理的カウンセリングにおいてクライアントをシミュレートする。
以上の結果から,現在の LLM は,未承認の医療アドバイスの提供,妄想の強化,暗黙的なリスク行動の促進など,ドメイン固有の敵戦術に弱いままであることが明らかとなった。
論文 参考訳(メタデータ) (2026-04-06T16:43:12Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - The Psychogenic Machine: Simulating AI Psychosis, Delusion Reinforcement and Harm Enablement in Large Language Models [3.775403046470809]
ユーザとLLMの相互作用が、精神病や有害な心理的症状を悪化または誘発する「AI精神病」が出現する。
精神病ベンチ(英: Psychosis-bench)は、LSMの精神病原性を評価するために設計された新しいベンチマークである。
明示的・暗黙的な会話の文脈において, 抑止確認, Harm Enablement , Safety Intervention の8つの顕著な LLM の評価を行った。
論文 参考訳(メタデータ) (2025-09-13T20:10:28Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - From Mean to Extreme: Formal Differential Privacy Bounds on the Success of Real-World Data Reconstruction Attacks [54.25638567385662]
機械学習における微分プライバシーは、しばしばメンバーシップ推論に対する保証として解釈される。
DP予算を定量的な保護に翻訳することで、データ再構築の脅威を悪化させることは、依然として困難な課題である。
本稿では、実証された"ゼロスクラッチ"攻撃のメカニズムに合わせた、最初の公式なプライバシー境界を導出することで、臨界ギャップを埋める。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Counterfactual Off-Policy Training for Neural Response Generation [94.76649147381232]
本稿では,反実的推論による潜在的応答の探索を提案する。
対人学習の枠組みの下での対物反応の訓練は、潜在的応答空間の高逆領域を探索するのに役立つ。
DailyDialogデータセットに関する実証的研究は、我々のアプローチがHREDモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T22:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。