論文の概要: Activation Steering Induces Emergent Misalignment: A More Comprehensive Evaluation
- arxiv url: http://arxiv.org/abs/2606.08682v1
- Date: Sun, 07 Jun 2026 15:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.388381
- Title: Activation Steering Induces Emergent Misalignment: A More Comprehensive Evaluation
- Title(参考訳): アクティベーションステアリングは創発的ミスアライメントを誘導する:より包括的な評価
- Authors: Qi Cao, Jian Lou, Meiting Liu, Wenjie Feng, Dan Li, See-Kiong Ng, Anh Tuan Luu,
- Abstract要約: 近年のQwen-3.5シリーズにおいても,アクティベーションステアリングが広範囲のアライメントを引き起こすことが示されている。
ステアリングサイズ, ステアリングサブスペースの低ランク構造, ステアリングベクター構築時のエポック数など, キーステアリング固有の因子を解析することにより, AS誘起EMの特性を特徴づける。
- 参考スコア(独自算出の注目度): 74.17379276939599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation steering has emerged as a popular inference-time technique for modulating the behavior of large language models (LLMs). By constructing a steering vector from examples of a target behavior and injecting it into intermediate activations during inference, activation steering enables flexible behavioral control while avoiding the permanent parameter updates required by finetuning. Meanwhile, recent work has identified emergent misalignment (EM) as a significant safety concern, wherein models finetuned on unsafe examples from a narrow task may unexpectedly generalize to broadly unsafe behavior on unrelated tasks. Although finetuning-induced EM has been extensively studied, whether activation steering can induce EM remains comparatively under-explored, despite its increasing use as a model-control technique. In this paper, we present a comprehensive study of activation-steering-induced emergent misalignment, substantially expanding the evaluation scope beyond existing pioneering work. First, we show that activation steering can induce broad misalignment, even in the recent Qwen-3.5 series. Moreover, activation-steered models produce harmful responses with stronger semantic relevance and higher coherence than their finetuned counterparts, making the resulting misalignment potentially more harmful. Second, we characterize properties of AS-induced EM by analyzing key steering-specific factors, including steering magnitude, the low-rank structure of the steering subspace, and the number of epochs during steering-vector construction. Third, we evaluate the robustness and sensitivity of AS-induced EM across diverse model families, model scales, target tasks, and intervention layers. Our findings reveal activation steering as a significant yet under-examined source of emergent misalignment and provide an activation-space perspective for understanding the mechanisms and safety risks of EM.
- Abstract(参考訳): アクティベーションステアリングは、大規模言語モデル(LLM)の振る舞いを調節する一般的な推論時間技術として登場した。
目標動作の例からステアリングベクトルを構築し、推論中に中間活性化に注入することにより、微調整で必要となるパラメータ更新を回避しながら、アクティベーションステアリングは柔軟な挙動制御を可能にする。
一方、近年の研究では、緊急不整合(EM)が重要な安全性上の問題として認識されており、狭いタスクから安全でない例に微調整されたモデルは、予期せず、不適切なタスクに対する広範囲に安全でない振る舞いに一般化される可能性がある。
微調整誘起EMは広く研究されているが, モデル制御技術としての利用が増加しているにもかかわらず, 活性化ステアリングがEMを誘導するか否かは, 比較的未探索のままである。
本稿では,アクティベーション・ステアリングによる創発的ミスアライメントを包括的に研究し,既存の先駆的作業を超えて評価範囲を大幅に拡大する。
まず,最近のQwen-3.5シリーズにおいても,アクティベーションステアリングが広範囲な不整合を引き起こすことを示す。
さらに、アクティベーションステアリングモデルは、それらの微調整されたモデルよりも意味的関連性が強く、コヒーレンスが高い有害な応答を生成し、結果として生じるミスアライメントがより有害になる可能性がある。
第2に, ステアリングサイズ, ステアリングサブスペースの低ランク構造, ステアリングベクター構築時のエポック数など, キーステアリング固有の要因を解析することにより, AS誘起EMの特性を特徴づける。
第3に、多様なモデルファミリー、モデルスケール、目標タスク、介入層におけるAS誘発EMの堅牢性と感度を評価する。
本研究は, アクティベーションステアリングを創発的不整合の原因として明らかにし, EMのメカニズムと安全性のリスクを理解するために, アクティベーション空間の視点を提供する。
関連論文リスト
- Minimizing Collateral Damage in Activation Steering [26.274685653829792]
アクティベーションステアリング(英: Activation steering)とは、言語モデル(LLM)の動作を制御する手法である。
ベクトル付加のような標準的な介入は、しばしば他の標的でない特徴方向に沿った活性化のアライメントに意図しない変化を引き起こす。
本研究では, 協調的損傷を数学的に定式化し, ステアリングを制約付き最適化問題としてモデル化する原理的枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-01T23:52:54Z) - Principled Steering via Null-space Projection for Jailbreak Defense in Vision-Language Models [71.11171576590134]
視覚言語モデルは視覚的ジェイルブレイク攻撃によって容易に誘導され、有害なコンテンツを生成する。
本稿では,NullSteerを提案する。
我々はNullSteerが様々なジェイルブレイク攻撃において有害な出力を著しく減少させることを示す。
論文 参考訳(メタデータ) (2026-03-23T15:23:23Z) - Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection [8.819278296219071]
大規模言語モデル(LLM)は複雑なユーザ命令に従わないことが多い。
アクティベーションステアリング技術はモデル内部を操作することを目的としているが、オーバーステアリングの危険性がある。
余分なデータセットを使わずにKVキャッシュをスケーリングすることで、操舵強度を動的に調節する新しい操舵法であるDIRECTERを導入する。
論文 参考訳(メタデータ) (2026-03-06T09:49:32Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Mechanistic Indicators of Steering Effectiveness in Large Language Models [3.635648354808971]
アクティベーションベースのステアリングにより、大規模言語モデルでは、トレーニングをせずに中間的アクティベーションに介入することで、ターゲットとなる振る舞いを表現できる。
広く使われているにもかかわらず、操舵が成功または失敗する際の機械的要因はいまだに理解されていない。
ステアリングの信頼性を内部モデル信号を用いて診断できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-02T06:56:22Z) - Steering Latent Traits, Not Learned Facts: An Empirical Study of Activation Control Limits [0.0]
大規模言語モデル(LLM)は、多様なアプリケーションにまたがる安全かつ効果的なデプロイメントのために、正確な振る舞い制御を必要とする。
本研究では, ステアリングの有効性が, 異なる行動種によってどのように異なるのか, 対象行動の性質がステアリングの成功を予測することができるのか, という課題に焦点をあてる。
論文 参考訳(メタデータ) (2025-11-23T04:28:41Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。
本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文 参考訳(メタデータ) (2025-05-06T05:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。