論文の概要: Beyond Linear Activation Steering: Invertible Latent Transformations for Controlling LLM Behavior
- arxiv url: http://arxiv.org/abs/2606.08454v1
- Date: Sun, 07 Jun 2026 05:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.117171
- Title: Beyond Linear Activation Steering: Invertible Latent Transformations for Controlling LLM Behavior
- Title(参考訳): リニアアクティベーションステアリングを超えて:LCM動作制御のための可逆潜在変換
- Authors: Tuc Nguyen, Thai Le,
- Abstract要約: INNSteerは非可逆潜在変換に基づく非線形活性化ステアリングフレームワークである。
線形、輸送ベース、非線形ステアリングベースラインに対するモデル制御を一貫して改善する。
- 参考スコア(独自算出の注目度): 13.073472989807675
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Activation steering provides a lightweight inference-time mechanism for controlling large language models (LLMs) by modifying their internal activation vectors toward desired behaviors. Most existing methods compute a fixed steering direction in the original activation space, typically from pairs of contrastive examples using mean differences, linear probes, or arbitrary separability criteria. While effective to a certain extent, these methods treat behavioral control as a global, linear, additive offset: the same direction is applied across inputs, and behaviors are linearly separable. This can be restrictive when behavioral features vary nonlinearly across the activation space or lie on curved and anisotropic manifolds, where the optimal intervention may be input-dependent. To address this limitation, we propose INNSteer, a nonlinear activation steering framework based on invertible latent transformations. Rather than searching for a better steering vector in the original representation space, INNSteer learns a lightweight invertible neural network $φ$ that maps an LLM's activations into a latent space where behavioral classes are more amenable to linear control. At inference time, activations are mapped through $φ$, steered in the latent space, and mapped back through the exact inverse transformation $φ^{-1}$. This makes a simple latent-space translation become a nonlinear, input-dependent intervention in the original activation space. Across experiment settings on multiple LLM families, scales, behavioral traits, and safety benchmarks, INNSteer consistently improves model control over linear, transport-based, and nonlinear steering baselines while largely preserving generation fluency.
- Abstract(参考訳): アクティベーションステアリングは、大きな言語モデル(LLM)を制御するための軽量な推論時メカニズムを提供する。
既存のほとんどの手法は、平均差、線形プローブ、または任意の分離性基準を用いて、対照的な例のペアから、元の活性化空間における固定された操舵方向を計算する。
ある程度有効ではあるが、これらの手法は行動制御を大域的で線形で付加的なオフセットとして扱う:同じ方向を入力に適用し、振舞いを線形に分離することができる。
これは、挙動的特徴が活性化空間全体にわたって非線形に異なる場合や、最適介入が入力依存であるような曲線および異方性多様体上に存在する場合に制限される。
この制限に対処するため,非可逆ラテント変換に基づく非線形アクティベーションステアリングフレームワークINNSteerを提案する。
元の表現空間でより良いステアリングベクトルを探す代わりに、INNSteerは軽量な可逆ニューラルネットワーク$φ$を学習し、LLMの活性化を線形制御によりより快適な振る舞いクラスを持つ潜在空間にマッピングする。
推論時、アクティベーションは$φ$にマッピングされ、潜在空間でステアリングされ、正確な逆変換$φ^{-1}$にマッピングされる。
これにより、単純な潜在空間変換は、元の活性化空間における非線形で入力依存的な介入となる。
複数のLLMファミリー、スケール、行動特性、安全性ベンチマークに関する実験的な設定を通じて、INNSteerは、線形、輸送ベース、非線形ステアリングベースラインに対するモデル制御を一貫して改善し、生成流速を抑える。
関連論文リスト
- Local Linearity of LLMs Enables Activation Steering via Model-Based Linear Optimal Control [2.752817022620644]
推論時間LLMアライメント法は、生成中のアクティベーションを直接修正することで、微調整の代替となる。
複数のLLMアーキテクチャとスケールの層ワイドダイナミクスが局所線形モデルによってよく近似されていることを示す。
我々は, ステアリング性能の正式な保証を可能にするために, セットポイント追従誤差の理論的境界を導出する。
論文 参考訳(メタデータ) (2026-04-21T03:09:46Z) - Curveball Steering: The Right Direction To Steer Isn't Always Linear [7.264147948470562]
アクティベーションステアリング(Activation steering)は、内部表現に介入して大きな言語モデル(LLM)の振る舞いを制御するために広く用いられるアプローチである。
本稿では,PCAカーネルをベースとした非線形ステアリング手法であるCurveball steeringを提案する。
論文 参考訳(メタデータ) (2026-03-10T07:45:35Z) - FreeAct: Freeing Activations for LLM Quantization [89.97086263978058]
量子化は、大規模言語モデルの重要なメモリと計算オーバーヘッドを軽減するために重要である。
FreeActは静的な1対1の制約を緩和し、動的アクティベーションの格差を緩和する新しい量子化フレームワークである。
dLLMとMLLMでの実験では、FreeActはベースラインを大幅に上回り、パフォーマンスは最大5.3%向上した。
論文 参考訳(メタデータ) (2026-03-02T12:02:17Z) - ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment [49.68063561145927]
活性化ステアリングのための統一常微分方程式(ODE)に基づく理論的枠組みを提案する。
本稿では,バリア関数によって誘導されるODEベースのステアリングの一種であるODESteerを紹介する。
最先端のアクティベーションステアリング手法と比較すると、ODESteerは一貫した経験的改善を実現している。
論文 参考訳(メタデータ) (2026-02-19T17:13:44Z) - MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [8.085475675888045]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。