論文の概要: When Behavioral Safety Evaluation Fails: A Representation-Level Perspective
- arxiv url: http://arxiv.org/abs/2606.08044v1
- Date: Sat, 06 Jun 2026 08:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.690175
- Title: When Behavioral Safety Evaluation Fails: A Representation-Level Perspective
- Title(参考訳): 行動安全評価が失敗した場合:表現レベルの観点から
- Authors: Enyi Jiang, Anders Gjølbye, Yibo Jacky Zhang, Sanmi Koyejo,
- Abstract要約: 大規模言語モデル(LLM)の安全性は、しばしば行動レベルで評価され、内部の堅牢性の限られた証拠を提供する。
我々は,この相違を監査ギャップとして定式化し,介入時の行動安全と頑健さの相違を考察した。
パラメータと潜伏空間のソフトな介入を通してモデルロバスト性をテストするための介入に基づく評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.598318016787147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) safety has often been evaluated at the behavior level, which provides limited evidence of internal robustness, as these evaluations target outputs rather than representation-level vulnerability under intervention. We formalize this discrepancy as the audit gap: the difference between behavioral safety and robustness under intervention. To study this gap, we construct dissociated models that preserve safe outward behavior while remaining vulnerable in the latent space. We introduce an intervention-based evaluation framework to test model robustness through soft interventions in parameter and latent spaces, including harmful fine-tuning and layer-wise latent perturbations. To formalize the evaluation, we propose the Latent Vulnerability Score (LVS) to measure how easily harmful behavior can be elicited by bounded latent perturbations. Using this evaluation framework, we show that behavioral safety metrics are insufficient measures of representation-level robustness across multiple safely and unsafely aligned state-of-the-art models. Notably, dissociated models show substantially elevated LVSs despite comparable refusal behavior under harmful intervention, with intermediate representations being the most sensitive to intervention. Our results suggest that behavioral safety evaluation alone provides an incomplete picture of model robustness, motivating representation-aware audits of latent vulnerability and observable behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性は、しばしば行動レベルで評価され、内部の堅牢性の限られた証拠を提供する。
我々は,この相違を監査ギャップとして定式化し,介入時の行動安全と頑健さの相違を考察した。
このギャップを調査するために、潜伏空間に脆弱なまま、安全な外向きの挙動を保つための解離モデルを構築した。
本稿では,パラメータと潜伏空間のソフトな介入によるモデルロバスト性評価のための介入ベース評価フレームワークを提案する。
評価の形式化のために,有界潜伏摂動によって有害な振る舞いがいかに容易に引き起こされるかを測定するために,LVS(Latent Vulnerability Score)を提案する。
この評価枠組みを用いて、動作安全指標は、複数の安全かつ非安全に整合した最先端モデルの表現レベルのロバスト性を評価するのに不十分であることを示す。
特に、解離モデルでは、有害な介入下での拒絶行動に匹敵するものの、介入に対して最も敏感な中間表現にもかかわらず、LVSが著しく上昇している。
以上の結果から,行動安全評価だけでは,モデル堅牢性,潜在脆弱性の表現認識監査,観察可能な行動の非完全像が得られないことが示唆された。
関連論文リスト
- RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs [5.100622189286672]
下流タスクのための微調整型セーフティアライメント言語モデルは、拒否動作を著しく低下させる可能性がある。
本稿では,モデル適応時の安全関連構造を保存する表現レベルの微調整フレームワークREFUSALGUARDを紹介する。
論文 参考訳(メタデータ) (2026-05-03T14:48:18Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - When Evaluation Becomes a Side Channel: Regime Leakage and Structural Mitigations for Alignment Assessment [0.0]
高度なAIシステムの安全性評価は、評価の下で観察された振る舞いがデプロイメントの振る舞いを予測することを前提としている。
部分観測可能性下での情報流問題としてアライメント評価をリキャストする。
我々は、レギュラー・ブラインド・メカニズム、レギュラー・キューへのアクセスを制限する訓練時間介入について研究する。
論文 参考訳(メタデータ) (2026-02-09T10:00:24Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。