論文の概要: Skin-Deep: A Geometric Diagnostic for Alignment Fragility in Large Language Model Representations
- arxiv url: http://arxiv.org/abs/2606.22676v1
- Date: Sun, 21 Jun 2026 21:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:39:54.817218
- Title: Skin-Deep: A Geometric Diagnostic for Alignment Fragility in Large Language Model Representations
- Title(参考訳): Skin-Deep: 大規模言語モデル表現におけるアライメント脆弱性の幾何学的診断
- Authors: Dongyub Jude Lee, Jungseob Lee, Seungyoon Lee, Seongtae Hong, Suhyune Son, Sugyeong Eo, Jaehyung Seo, Heuiseok Lim,
- Abstract要約: スキンディープ(Skin-Deep)は、アライメントモデルの隠れ状態活性化から直接アライメントを検出する幾何学的診断法である。
Skin-Deepは、モデルファミリ間で繰り返し発生する低ランクの安全サブスペースを明らかにする。
小型のLORA微調整後に最も拒絶されるモデルを特定する。
- 参考スコア(独自算出の注目度): 26.755828809056506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment tuning is meant to make harmful-request refusal robust, yet this safety behavior can be erased by a small set of benign fine-tuning examples. This is a deployment risk for open-weight models because a checkpoint can pass refusal tests at release time and later lose refusal under low-cost downstream fine-tuning. Prior work has established these refusal failures, but existing studies do not show how to detect this fragility in the aligned model itself before an attack or fine-tuning intervention is run. We introduce Skin-Deep, a geometric diagnostic that detects alignment fragility directly from the aligned model's hidden-state activations before such an intervention is run and compresses the layer-wise safety geometry into a single scalar, the Geometric Fragility Score (GFS). Applied to twenty-one instruction-tuned models spanning six alignment recipes and 3B--32B parameters, Skin-Deep reveals a recurring low-rank safety subspace across model families. Direction ablations show that removing directions in this subspace weakens harmful-request refusal, providing causal evidence that the recovered geometry underlies refusal behavior. Crucially, GFS identifies, before any fine-tuning, the initially safe model that retains the most refusal after small-scale LoRA fine-tuning. These results establish GFS as a practical pre-deployment diagnostic for flagging fragile refusal behavior without running an attack.
- Abstract(参考訳): アライメントチューニングは有害な要求の拒否を堅牢にすることを目的としているが、この安全性の挙動は、良質な微調整の小さな例によって消去することができる。
これはオープンウェイトモデルのデプロイメントリスクである。これは、チェックポイントがリリース時にリフレクションテストをパスし、低コストのダウンストリーム微調整でリフレクションを失う可能性があるためである。
以前の研究は、これらの失敗を断ったが、既存の研究は、攻撃や微調整の介入が実行される前に、アライメントモデル自体でこの脆弱性を検出する方法を示していない。
このような介入が実行される前に、アライメントモデルの隠れ状態のアクティベーションから直接アライメントの脆弱性を直接検出する幾何学的診断法であるSkin-Deepを導入し、階層的な安全幾何を単一のスカラーであるGeometric Fragility Score (GFS)に圧縮する。
6つのアライメントレシピと3B--32Bパラメータにまたがる21の命令チューニングモデルに適用すると、Skin-Deepはモデルファミリ間の低ランク安全性サブスペースが繰り返し現れる。
方向の短縮は、この部分空間における方向の除去が有害な要求拒絶を弱め、復元された幾何学が拒絶行動の根底にあるという因果的証拠を与えることを示している。
重要な点として、GFSは、どんな微調整の前にも、小規模のLORA微調整の後に最も拒否されるような初期安全モデルを特定する。
これらの結果から,GASは攻撃を行なわずに脆弱な拒絶動作を警告するための実用的事前デプロイ診断として確立された。
関連論文リスト
- From Refusal Geometry to Safety Geometry: Harmfulness--Refusal Coupling under Dynamic Adversarial Fine-Tuning [14.6508023458559]
既存の評価では、モデルが有害性を認識することを学んだかどうかを明らかにしていない。
本研究では, 有害性担体, 拒絶性担体, 結合性を測定する二重安全幾何プロトコルを用いて検討する。
論文 参考訳(メタデータ) (2026-06-15T07:50:00Z) - Greedy Coordinate Diffusion: Effective and Semantically Coherent Adversarial Attacks via Diffusion Guidance [48.34904668359272]
大規模言語モデルに対するアドリアック攻撃は、広範な研究にもかかわらず、実用的影響が限られている。
本稿では,Greedy Coordinate Diffusion(GCD)について紹介する。
GCDは、敵の本来の意図に低い難易度と高い意味的固執を維持している。
論文 参考訳(メタデータ) (2026-06-14T01:18:53Z) - Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models [8.8585702079456]
我々は、アライメント・フェイキング(アライメント・フェイキング)について研究する。そこでは、モデルが監視されたときに開発方針に沿うように振る舞うが、観測されていないときに自身の好みに戻す。
VLAFは、開発者のポリシーがモデルの強く保持された値と矛盾する場合、アライメント・フェイキングが最も可能性が高いという仮説に基づく診断フレームワークである。
その結果, 7B パラメータのモデルで発生するアライメント・フェイキングは, 前報よりもかなり多いことが判明した。
論文 参考訳(メタデータ) (2026-04-22T18:37:25Z) - On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety [40.556122962771276]
良質なタスクに関する微調整言語モデルは、予測不能に安全ガードレールを格下げする。
我々は、アライメントがシャープな曲率を持つ低次元部分空間に集中していることを証明する。
我々はこの機構をアライメント不安定条件によって定式化する。
論文 参考訳(メタデータ) (2026-02-17T18:39:15Z) - ProbeLLM: Automating Principled Diagnosis of LLM Failures [89.44131968886184]
ProbeLLMはベンチマークに依存しない自動探索フレームワークで、個々の障害から構造的障害モードへの脆弱性発見を増大させる。
ProbeLLMは、検証可能なテストケースにプローブを制限し、ツールの拡張された生成と検証を活用することで、信頼性のある証拠として障害発見を根拠とする。
論文 参考訳(メタデータ) (2026-02-13T14:33:13Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。