論文の概要: A Geometric Account of Activation Steering through Angle-Norm Decomposition
- arxiv url: http://arxiv.org/abs/2606.06735v2
- Date: Mon, 08 Jun 2026 18:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.620452
- Title: A Geometric Account of Activation Steering through Angle-Norm Decomposition
- Title(参考訳): アングル・ノーム分解による活性化ステアリングの幾何学的説明
- Authors: Georgii Aparin, Tatiana Gaintseva,
- Abstract要約: 線形アクティベーションステアリングは、言語モデルの振る舞いをシンプルかつ経験的に制御する方法として人気を集めている。
ステアリング法は,トークンの角方向のアライメントを概念方向に変更し,隠れ状態のノルムを変更するという2つの幾何学的効果の相違を示す。
以上の結果から,アクティベーションステアリングは角状成分と放射状成分によってパラメータ化されるべきであることが示唆された。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear activation steering has gained popularity as a simple and empirically effective way to control language model behavior. More recently, spherical steering paradigms have been proposed to address limitations of additive interventions, often motivated by the assumption that hidden-state norm does not carry concept-relevant information. In this work, we revisit this assumption through a controlled empirical study designed to disentangle the roles of angular and radial components. We show that steering methods differ mainly in how they couple two geometric effects: changing a token's angular alignment with a concept direction and changing its hidden-state norm. Across seven language models, we find that concepts are represented primarily in angular structure, supporting the motivation for spherical methods, but that norm remains important for the stability and downstream effects of steering. Our results explain why interventions with similar concept-level effects can behave differently, and suggest that activation steering should be parameterized by interpretable angular and radial components of the intervention, rather than by a single additive coefficient that entangles these two effects.
- Abstract(参考訳): 線形アクティベーションステアリングは、言語モデルの振る舞いをシンプルかつ経験的に制御する方法として人気を集めている。
近年、球面ステアリングのパラダイムは加法的介入の限界に対処するために提案され、しばしば隠れ状態のノルムは概念関連情報を持たないという仮定によって動機付けられている。
本研究では, この仮定を, 角成分と放射成分の役割を乱すような制御実験によって再検討する。
ステアリング法は, トークンの角方向のアライメントを概念方向に変更し, 隠れ状態のノルムを変更するという2つの幾何学的効果の相違を主に示している。
7つの言語モデルにまたがって, 概念は主として角構造で表現され, 球形手法のモチベーションを支えるが, ステアリングの安定性と下流効果にとって, 標準は依然として重要である。
本研究は, 同様の概念レベルの効果を持つ介入が, 異なる動作をすることができる理由を説明するとともに, 活性化ステアリングは, この2つの効果を絡み合わせる1つの加算係数ではなく, 解釈可能な角成分と放射成分によってパラメータ化されるべきであることを示唆した。
関連論文リスト
- The Cylindrical Representation Hypothesis for Language Model Steering [57.97381760521523]
中心軸は、概念の欠如と存在との主な違いを捉え、概念生成を駆動することを示す。
我々はこれを円筒表現仮説(CRH)として定式化する。
本実験は円筒構造の存在を検証し,CRHが実環境でのモデルステアリング動作の解釈に有効かつ実用的な方法であることを示した。
論文 参考訳(メタデータ) (2026-05-03T12:26:13Z) - Minimizing Collateral Damage in Activation Steering [26.274685653829792]
アクティベーションステアリング(英: Activation steering)とは、言語モデル(LLM)の動作を制御する手法である。
ベクトル付加のような標準的な介入は、しばしば他の標的でない特徴方向に沿った活性化のアライメントに意図しない変化を引き起こす。
本研究では, 協調的損傷を数学的に定式化し, ステアリングを制約付き最適化問題としてモデル化する原理的枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-01T23:52:54Z) - From Weights to Activations: Is Steering the Next Frontier of Adaptation? [24.89959346599616]
言語モデルの訓練後適応は、パラメータ更新や入力ベースの手法によって一般的に達成される。
我々は、ステアリングをモデル適応の一形態と見なすべきであると主張する。
論文 参考訳(メタデータ) (2026-04-15T17:06:25Z) - Weight Updates as Activation Shifts: A Principled Framework for Steering [54.70188910511715]
アクティベーションステアリングは極めてパラメータ効率のよい適応形態となるが、その有効性は重要な設計選択に依存する。
我々は,活性化空間介入と重量空間更新の1次等価性を確立し,活性化ステアリングが微調整動作を再現できる条件を導出する。
この等価性は、設計をステアリングするための原則的な枠組みをもたらし、ポストブロック出力を理論的に支持され、非常に表現力のある介入サイトとして特定する。
論文 参考訳(メタデータ) (2026-02-28T02:50:04Z) - Spherical Steering: Geometry-Aware Activation Rotation for Language Models [15.078810641141295]
推論時ステアリングは、言語モデル(LM)をトレーニングのコストなしで制御するための有望なパラダイムとして登場した。
本研究では,活性化回転によりこのトレードオフを解消する訓練不要プリミティブである球状ステアリングについて検討する。
本手法は,信号の完全性を保ちながら,測地線に沿って目標方向に向かって活性化を回転させ,目標概念に向けての活性化を誘導する。
論文 参考訳(メタデータ) (2026-02-09T00:15:47Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Angular Steering: Behavior Control via Rotation in Activation Space [1.3400719989424488]
Angular Steeringは、振る舞い変調の新しいフレキシブルな方法である。
固定された2次元部分空間内で回転活性化によって作用する。
拒否やコンプライアンスといった行動に対して,継続的かつきめ細かいコントロールを提供する。
論文 参考訳(メタデータ) (2025-10-30T08:23:35Z) - SteeringSafety: A Systematic Safety Evaluation Framework of Representation Steering in LLMs [42.189660766537536]
我々は17のデータセットにまたがる7つの安全性の観点から、表現ステアリング手法を評価するための体系的なフレームワークであるSteeringSafetyを紹介した。
当社のフレームワークは,DIM,ACE,CAA,PCA,LATの統一的な実装を実現するとともに,最近のコンディショナルステアリングなどの拡張を施した,最先端のステアリング手法のためのモジュール化されたビルディングブロックを提供する。
論文 参考訳(メタデータ) (2025-09-16T18:36:22Z) - Unifying Perplexing Behaviors in Modified BP Attributions through Alignment Perspective [61.5509267439999]
GBP, RectGrad, LRP, DTD などの手法の統一理論フレームワークを提案する。
活性化ニューロンの重みを結合して入力アライメントを実現することを実証した。
このアライメントにより、可視化品質が向上し、重量ランダム化に対する感度が低下する。
論文 参考訳(メタデータ) (2025-03-14T07:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。