論文の概要: ORBIT: Training-Free Multi-Attribute Behavioral Steering via Orthogonal Subspace Rotation
- arxiv url: http://arxiv.org/abs/2606.22357v1
- Date: Sun, 21 Jun 2026 06:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:42:06.595228
- Title: ORBIT: Training-Free Multi-Attribute Behavioral Steering via Orthogonal Subspace Rotation
- Title(参考訳): ORBIT: 直交部分空間回転によるトレーニングフリーマルチ属性動作ステアリング
- Authors: Narges Ghasemi, Amir Ziashahabi, Salman Avestimehr, Jonathan May,
- Abstract要約: 回転型ステアリングのトレーニング不要な拡張であるORBITをマルチ属性設定に導入する。
本手法は, 特異値分解法により, 配位子間ステアリング平面から結合部分空間を構成する。
また、表面的なスタイルではなく、行動の傾向に焦点を当てた、新しいマルチ属性ベンチマークであるTritFactoryも導入した。
- 参考スコア(独自算出の注目度): 38.36944876774961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are widely used in assistant settings, where controlling behavioral attributes is often essential. Activation steering modifies hidden-state representations at inference time, providing a lightweight, training-free mechanism that can be toggled at runtime. Existing methods, however, have focused primarily on steering a single attribute at a time. When multiple attributes must be controlled simultaneously, naive summation of per-attribute steering vectors suffers from norm imbalance and directional cancellation, while classifier-based approaches require retraining whenever the attribute set changes. We introduce ORBIT (Orthogonal Rotation-Based Intervention Technique), a training-free extension of rotation-based steering to the multi-attribute setting. Our method constructs a joint subspace from per-attribute steering planes via singular value decomposition and applies a single norm-preserving rotation within that subspace toward a combined target direction. Adaptive per-token gating identifies which attributes need correction at each position, and an optional additive boost strengthens attributes with weak initial projection. We also introduce TraitFactory, a new multi-attribute benchmark that focuses on behavioral tendencies rather than surface-level style. We evaluate ORBIT on TraitFactory and ToneBank across three models (Llama-3.2-3B, Qwen-2.5-7B, Llama-3.1-8B) while steering multiple attributes simultaneously, showing that it achieves stronger and more balanced multi-attribute steering than existing training-free baselines while better preserving output coherence.
- Abstract(参考訳): 言語モデルはアシスタント設定で広く使われており、振る舞いの属性を制御することが不可欠であることが多い。
アクティベーションステアリングは、推論時に隠れ状態表現を変更し、実行時にトグル可能な軽量でトレーニング不要なメカニズムを提供する。
しかし、既存の方法は、主に1つの属性を一度に操ることに焦点を当てている。
複数の属性を同時に制御する必要がある場合、属性単位のステアリングベクトルの単純和はノルム不均衡と方向のキャンセルに悩まされ、一方、分類器ベースのアプローチは属性セットが変化するたびに再訓練を必要とする。
ORBIT (Orthogonal Rotation-Based Intervention Technique) は、回転型ステアリングをマルチ属性設定に拡張する訓練自由な手法である。
本手法は, 単値分解により各属性のステアリング面から結合部分空間を構築し, その部分空間内での単一のノルム保存回転を, 組み合わせた目標方向に向けて適用する。
アダプティブ・パー・トケン・ゲーティング(Adaptive per-token gating)は、どの属性がそれぞれの位置で補正を必要とするかを識別し、オプションの加算は、弱い初期射影で属性を強化する。
また、表面的なスタイルではなく、行動の傾向に焦点を当てた、新しいマルチ属性ベンチマークであるTritFactoryも導入した。
我々は,TraitFactoryとToneBankの3つのモデル(Llama-3.2-3B,Qwen-2.5-7B,Llama-3.1-8B)でORBITを評価し,複数の属性を同時に操り,既存のトレーニング不要ベースラインよりも強くバランスの取れたマルチ属性ステアリングを実現し,出力コヒーレンスを向上した。
関連論文リスト
- Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Beyond Linear Steering: Unified Multi-Attribute Control for Language Models [8.223479896191145]
K-ステアリング(K-Steering)は、隠れたアクティベーションに対して単一の非線形マルチラベル分類器を訓練する統一的で柔軟なアプローチである。
これにより、線形性の仮定を回避し、別個のベクトル属性の保存とチューニングの必要性を排除し、再トレーニングなしに振る舞いの動的構成を可能にする。
アクティベーションに基づく分類器とLCMに基づく判定器の両方で検証された3つのモデルファミリーにおける実験結果から、K-ステアリングは複数の動作を正確に操る上で、強いベースラインより優れていることが証明された。
論文 参考訳(メタデータ) (2025-05-30T12:41:19Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。