論文の概要: Adversarial Robustness of Activation Steering in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.07696v1
- Date: Fri, 05 Jun 2026 07:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.287061
- Title: Adversarial Robustness of Activation Steering in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるアクティベーションステアリングの逆ロバスト性
- Authors: Kien Le, Thai Le,
- Abstract要約: アクティベーションステアリング(Activation steering)は、予測時にモデルの残留ストリームに事前計算された方向ベクトルを注入することにより、LCMの動作を制御する訓練不要な方法である。
本稿では,入力に対する逆文摂動下でのアクティベーション・ステアリング・ロバスト性の最初の体系的評価について述べる。
- 参考スコア(独自算出の注目度): 10.710084443802897
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Activation steering has become a popular training-free method to control LLM behavior by injecting precomputed direction vectors into the model's residual stream at inference time. Yet its robustness to realistic input variation remains unstudied. We present the first systematic evaluation of activation steering robustness under adversarial text perturbations on the inputs, covering four extraction methods, three attack strategies, six personas from Anthropic Model-Written Evaluation Dataset, and five models ranging from 1.5B to 30B parameters. Attacks succeed broadly across all settings: directional robustness drops by up to 64%, post-attack confidence collapses near or below 0.25 across all methods and models, and steering strength degrades on nearly every steerable input. Layer selection is equally fragile, with the optimal layer identified by an automated method on clean inputs shifting by up to 17 positions under perturbation, a failure that compounds the vector-level breakdown. Extracting vectors from adversarially perturbed inputs partially recovers steerability for PCA and MD on mid-to-large models, but they consistently fail to locate the improved optimal layer, limiting the practical benefit of this mitigation. Together, these findings reveal that the brittleness of activation steering is structural rather than method-specific, and that current layer selection strategies are not robust enough for real-world deployment.
- Abstract(参考訳): アクティベーションステアリングは、予測時にモデルの残留ストリームに事前計算された方向ベクトルを注入することにより、LCMの挙動を制御するための一般的なトレーニング不要な方法となった。
しかし、現実的な入力変動に対する堅牢性は、まだ研究されていない。
入力に対する逆テキスト摂動下でのアクティベーション・ステアリング・ロバスト性の最初の体系的評価を行い,4つの抽出方法,3つの攻撃戦略,6つの人格,1.5Bから30Bのパラメータを含む5つのモデルについて検討した。
攻撃はあらゆる場面で成功し、方向的ロバスト性は最大64%低下し、攻撃後の自信はすべての方法とモデルで0.25以下に崩壊し、ほぼ全てのステアブル入力で操舵強度は低下する。
層選択は同様に脆弱であり、最適層は、ベクトルレベルの分解を複雑にする障害である摂動の下で最大17位置のクリーンな入力をシフトする自動化された方法によって識別される。
逆摂動入力からベクトルを抽出すると、PCAとMDの操舵性が部分的に回復するが、改善された最適層を見つけるのに一貫して失敗し、この緩和の実用的利益が制限される。
これらの結果から,アクティベーションステアリングの脆性はメソッド固有のものではなく構造的であり,現在の層選択戦略は実世界展開には不十分であることがわかった。
関連論文リスト
- Agentic Adversarial Rewriting Exposes Architectural Vulnerabilities in Black-Box NLP Pipelines [34.37967130277969]
本稿では,意味摂動空間で動作する2エージェント回避フレームワークを提案する。
現代大言語モデル(LLM)ベースのシステムでは、普及率は19.95から40.34%である。
パターンインフォームド・ディフェンスは回避率を65.18%まで下げる。
論文 参考訳(メタデータ) (2026-04-26T00:58:36Z) - Efficient Refusal Ablation in LLM through Optimal Transport [30.0180859405821]
安全に整合した言語モデルは、内部表現に符号化された学習された拒絶行動を通じて有害な要求を拒否する。
近年のアクティベーションベースジェイルブレイク法は, 拒絶方向の除去にプロジェクションを適用することで, これらの安全機構を回避している。
我々は、有害な活性化の分布全体を無害なものと一致させる最適な輸送理論に基づく原則的枠組みを導入する。
論文 参考訳(メタデータ) (2026-03-04T18:19:50Z) - Internalizing LLM Reasoning via Discovery and Replay of Latent Actions [4.830503861275364]
連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。
動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:44:57Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Steering Conceptual Bias via Transformer Latent-Subspace Activation [0.0]
本研究では,言語モデル(LLM)における潜在部分空間の活性化が,特定のプログラミング言語に対して科学的コード生成を促進できるかどうかを検討する。
C++ または CPP トークンに対して最も活性の高い静的重みを摂動させるニューロンの寄与法は脆く、限定的な一般化を示した。
勾配調整型アダプティブアクティベーションステアリングフレームワーク(G-ACT)を開発した。
論文 参考訳(メタデータ) (2025-06-23T17:56:34Z) - Shifting Perspectives: Steering Vectors for Robust Bias Mitigation in LLMs [8.91107152198979]
本稿では,大規模言語モデル(LLM)において,前方通過におけるモデルアクティベーションの修正にステアリングベクトルを適用することにより,バイアス軽減手法を提案する。
我々は、BBQデータセットのトレーニングサブセット上で、それぞれ異なる社会的バイアス軸に対応する8つのステアリングベクトルを計算し、これらの有効性を4つのデータセットにまたがる3つのバイアス緩和手法と比較する。
BBQデータセットに最適化すると、個別に調整されたステアリングベクトルは、BBQで12.8%、CLEAR-Biasで8.3%、StereoSetで1%の平均的な改善が達成される。
論文 参考訳(メタデータ) (2025-03-07T12:25:29Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。