論文の概要: From Refusal Geometry to Safety Geometry: Harmfulness--Refusal Coupling under Dynamic Adversarial Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.16349v2
- Date: Tue, 16 Jun 2026 02:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.823826
- Title: From Refusal Geometry to Safety Geometry: Harmfulness--Refusal Coupling under Dynamic Adversarial Fine-Tuning
- Title(参考訳): 拒絶幾何から安全幾何へ--動的対向微調整下での拒絶結合-
- Authors: Wenhao Lan, Shan Li, Xinhua Lai, Meiqi Wu, Junbin Yang, Haihua Shen, Yijun Yang,
- Abstract要約: 既存の評価では、モデルが有害性を認識することを学んだかどうかを明らかにしていない。
本研究では, 有害性担体, 拒絶性担体, 結合性を測定する二重安全幾何プロトコルを用いて検討する。
- 参考スコア(独自算出の注目度): 14.6508023458559
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safety alignment requires language models to refuse harmful requests without losing the ability to answer benign ones. Existing robustness evaluations, however, do not reveal whether a model has learned to recognize harmfulness, to activate a refusal policy, or to couple these two processes. We study this question with a dual safety-geometry protocol that measures harmfulness carriers, refusal carriers, and their coupling across aligned instruction-tuned anchors and matched Mistral-7B-v0.1 SFT/R2D2 training trajectories. The aligned anchors validate the protocol: refusal-side interventions reopen attack success more strongly than harmfulness-only interventions, while harmfulness and refusal carriers remain nearly orthogonal. Along the Mistral trajectory, R2D2 exhibits a high-coupling early phase with strong fixed-source robustness, saturated safe-prompt refusal, and collapsed benign utility. Later checkpoints move to a lower-coupling regime with partial utility recovery and reopened attack success. SFT provides an important contrast: it also reaches low coupling, but remains substantially less robust, showing that low coupling alone is not a safety guarantee. All-anchor diagnostics and sparse GCG/AutoDAN transfer experiments further show that H/R coupling is informative in the R2D2 regime, whereas SFT transfer is better summarized by drift or behavior-state measures. Causal sweeps support fixed-protocol sensitivity relative to matched unit-direction controls, but do not establish independent harmfulness and refusal pathways. These results frame harmfulness--refusal coupling as an operational diagnostic for safety-geometry dynamics under adversarial fine-tuning.
- Abstract(参考訳): 安全アライメントには、言語モデルが有害な要求を拒否し、良心的な要求に答える能力を失うことなく要求する。
しかし、既存の堅牢性評価では、モデルが有害性を認識したり、拒絶ポリシーを発動したり、あるいはこれら2つのプロセスを組み合わせたりすることを学習したかどうかを明らかにしていない。
本研究では, 有害キャリア, 拒絶キャリア, 整列型アンカー間の結合, およびMistral-7B-v0.1 SFT/R2D2訓練軌道に適合する2つの安全幾何プロトコルを用いて検討する。
拒否側介入は有害性のみの介入よりも攻撃成功を強く再開するが、有害性や拒絶担体はほぼ直交的である。
ミストラル軌道に沿って、R2D2は、強い固定ソースの堅牢性、飽和した安全プロンプトの拒絶、崩壊した良性を有する高結合初期相を示す。
その後のチェックポイントは、部分的なユーティリティリカバリと攻撃成功の再開によって、低結合状態に移行する。
SFTは重要なコントラストを提供しており、低結合性にも到達するが、低結合性だけでは安全保証ではないことを示す、実質的なロバスト性は低い。
オールアンカー診断とGCG/AutoDANトランスファー実験は、H/RカップリングがR2D2レギュレーションにおいて有益であるのに対して、SFTトランスファーはドリフトまたは行動状態測定によってよりよく要約されていることを示す。
因果関係は、一致した単位方向制御に対する固定プロトコール感受性をサポートするが、独立した有害性や拒絶経路は確立しない。
これらの結果は, 対向微調整下での安全幾何力学の操作診断として, 断熱カップリングの有害性について検討した。
関連論文リスト
- Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs [20.59321114618083]
単一ターン診断はRAGの安全性を体系的に過大評価し、矛盾は安全な解決法とは無関係であり、普遍的な即時修正は存在しないことを示した。
モデルが認識するものと何をするかのギャップは、検索強化されたシステムが高レベルな設定で信頼される前に測定され、クローズされなければならない。
論文 参考訳(メタデータ) (2026-05-26T15:18:43Z) - Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry [13.93757841610393]
教師付き微調整(SFT)およびR2D2型逆微調整(R2D2-style adversarial fine-tuning)下での7B背骨の計測駆動機構について検討した。
我々のプロトコルは、固定ソースのHarmBench、StrongREJECT、XSTestを5行のリファクター・ジオメトリースイートと因果介入で調整する。
論文 参考訳(メタデータ) (2026-04-29T12:44:05Z) - Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - The Unintended Trade-off of AI Alignment:Balancing Hallucination Mitigation and Safety in LLMs [9.470098715212087]
真実性を高めることは 安全性に悪影響を及ぼす
本稿では, 事実の精度向上が, 拒否行動の弱化を招きやすいことを示す。
スパースオートエンコーダを用いた幻覚特徴から拒絶関連特徴を分離する手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T04:30:58Z) - TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs [7.125400292079228]
大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。
以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。
TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T05:03:35Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。