論文の概要: Pre-Intervention Prediction of Sparse Autoencoder Steering Side Effects
- arxiv url: http://arxiv.org/abs/2606.08365v1
- Date: Sat, 06 Jun 2026 22:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.062056
- Title: Pre-Intervention Prediction of Sparse Autoencoder Steering Side Effects
- Title(参考訳): スパースオートエンコーダステアリングサイド効果の事前干渉予測
- Authors: Evan Duan,
- Abstract要約: 本研究では,SAEのステアリング側効果を,ステアリング前に計算した特徴統計から予測するためのプレインターベンションスクリーニングフレームワークを提案する。
操舵モジュール性, 効果安定性, 側方展開の2軸に沿ってサイドエフェクトを運用し, GPT-2-small, Pythia-70M-deduped, Gemma-2-2B, Llama-3.1-8Bを評価した。
シグナルは、GPT-2-small、Pythia-70M、Llama-3.1-8Bで最強であり、マグマ-2-2Bでは弱い。
- 参考スコア(独自算出の注目度): 0.16921396880325779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoder (SAE) features are increasingly used to steer language models, but feature steering is rarely clean: the same intervention can behave inconsistently across contexts and perturb unrelated features. We introduce a pre-intervention screening framework for forecasting SAE steering side effects from feature statistics computed before steering. We operationalize side effects along two axes of steering modularity, effect stability and collateral spread, and evaluate GPT-2-small, Pythia-70M-deduped, Gemma-2-2B, and Llama-3.1-8B across ReLU, JumpReLU, and TopK SAE dictionaries. Across these settings, decoder geometry, activation statistics, co-activation structure, and direct-logit footprint predict steering modularity better than frequency-only and activation-magnitude baselines. The signal is strongest in GPT-2-small, Pythia-70M, and Llama-3.1-8B, where it survives residualization against magnitude-related confounds, and weaker in Gemma-2-2B. Held-out screening shows that ranking unseen features by predicted cleanliness can select features that steer more cleanly on fresh contexts, but the successful axis varies by setting: GPT-2 improves most cleanly, Pythia improves mainly on stability, Llama mainly on collateral, and Gemma only partially. A controlled Llama Scope width comparison shows that the predictive signal persists under a 32K-to-128K dictionary-width change, although the screening payoff becomes less stable. Overall, SAE steering side effects are predictable in advance, but the useful predictor signature and transferred modularity axis are model- and dictionary-setting dependent.
- Abstract(参考訳): スパースオートエンコーダ(SAE)機能は、言語モデルをステアリングするためにますます使われていますが、機能ステアリングは滅多にありません。
本研究では,SAEのステアリング側効果を,ステアリング前に計算した特徴統計から予測するためのプレインターベンションスクリーニングフレームワークを提案する。
我々は, 操舵モジュール性, 効果安定性, 側方展開の2軸に沿ったサイドエフェクトを運用し, GPT-2-small, Pythia-70M-deduped, Gemma-2-2B, Llama-3.1-8BをReLU, JumpReLU, TopK SAE辞書上で評価した。
これらの設定全体にわたって、デコーダ幾何、アクティベーション統計、コアクティベーション構造、直接ロジットフットプリントは、周波数のみとアクティベーションマグニチュードのベースラインよりも、モジュラリティを予測する。
シグナルは、GPT-2-small、Pythia-70M、Llama-3.1-8Bで最強であり、マグマ-2-2Bでは弱い。
ヘルドアウトスクリーニングは、予測された清潔さによって見えない特徴のランク付けが、新鮮な文脈でよりきれいに操る特徴を選択できることを示しているが、成功の軸は、設定によって異なる: GPT-2は最もきれいに改善され、ピシアは主として安定性、ラマは主として横方向、ジェマは部分的に改善された。
制御されたLlama Scope幅比較では、予測信号は32Kから128Kの辞書幅変化の下で持続するが、スクリーニングのペイオフは安定しない。
全体として、SAEの操舵側効果は事前に予測可能であるが、有用な予測器シグネチャと移動モジュラリティ軸はモデルおよび辞書設定に依存している。
関連論文リスト
- Stable and Steerable Sparse Autoencoders with Weight Regularization [0.0]
エンコーダとデコーダの重み付けにL1またはL2のペナルティを加えることで重量正規化を研究する。
我々はL2重み正規化が高度に整列した特徴のコアとなることを観察する。
定期的な設定では、アクティベーションステアリングの成功は自動解釈可能性スコアによって予測される。
論文 参考訳(メタデータ) (2026-03-04T15:46:23Z) - Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM [0.0]
以前の研究は、一部のLCMは、選択肢が痛みや快楽を引き起こすものとしてフレーム化されているときに選択を変更でき、そのような偏差は、記述された強度でスケール可能であることを示唆している。
本研究では, 変圧器内における原子価関連情報がどのように表現され, どこで因果的に使用されるかを検討する。
Gemma-2-9B-itと、前処理をモデルとした最小限の決定タスクを用いて、(i)ストリームを横断する層ワイドな線形プローブを用いて、表現の可用性をマップする。
我々は,活性化介入(ステアリング,パッチ,アブレーション)による因果的寄与を検証し,(iii)エプシロングリッド上での線量応答効果を定量化する。
論文 参考訳(メタデータ) (2026-02-22T12:42:38Z) - Steer2Edit: From Activation Steering to Component-Level Editing [24.755027943286432]
我々は、ステアリングベクトルをコンポーネントランク1の重み付けのための診断信号に変換する、トレーニング不要のフレームワークであるSteer2Editを提案する。
安全性のアライメント、属性緩和、推論効率などを通じて、Steer2Editは一貫して、より好ましい属性ユーティリティトレードオフを実現している。
全体として、Steer2Editは表現ステアリングとウェイト編集の間に原則化されたブリッジを提供する。
論文 参考訳(メタデータ) (2026-02-10T15:15:15Z) - Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Improved Representation Steering for Language Models [50.86411958644953]
我々は新しいReference-free Preference Steering (RePS)を通して表現ステアリングを改善する方法を示す。
2Bから27Bまでのサイズを持つGemmaモデルでは、RePSは言語モデリングの目的で訓練された既存のステアリングメソッドよりも優れています。
抑圧においては、RePSはGemma-2の言語モデリングの目的と一致し、より大きなGemma-3の変種よりも優れている。
論文 参考訳(メタデータ) (2025-05-27T07:16:40Z) - Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders [9.203871622144863]
大規模言語モデル(LLM)は現在、ユーザ向けアプリケーションではユビキタスだが、望ましくない有害な出力を生成する。
我々はスパースオートエンコーダ(SAE)を利用してモデル残差ストリームの毒性関連方向を特定し、ターゲットのアクティベーションステアリングを行う。
論文 参考訳(メタデータ) (2025-05-20T15:55:31Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。