論文の概要: A Low-Rank Subspace Analysis of LLM Interventions
- arxiv url: http://arxiv.org/abs/2606.14388v1
- Date: Fri, 12 Jun 2026 12:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.891226
- Title: A Low-Rank Subspace Analysis of LLM Interventions
- Title(参考訳): LLM干渉の低ランク部分空間解析
- Authors: Angira Sharma, Christian Schroeder de Witt, Philip Torr, Anisoara Calinescu, Jialin Yu,
- Abstract要約: LLMの特定の振る舞いを変更するために設計された介入は、しばしば意図しない他の振る舞いの変化を引き起こす。
この目標制御の欠如は、信頼性の高い安全制御の設計と実装を困難にしている。
我々は、アクティベーション空間における低ランクな部分空間として振舞いをモデル化し、介入が行動全体にどのように影響するかを研究する。
- 参考スコア(独自算出の注目度): 21.607167713433622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interventions designed to modify a particular behavior in LLMs, such as refusal or sycophancy, often produce unintended changes in other behaviors. This lack of targeted control makes it difficult to design and implement reliable safety controls. To understand these side-effects, we introduce a diagnostic framework for analyzing interacting behaviors in LLMs. We model behaviors as low-rank subspaces in activation space, and study how interventions influence across behaviors. Across multiple instruction-tuned models (7B-70B) and across refusal, jailbreak, and sycophancy settings, we find that different behaviors share internal representations, and intervening on one behavior alters others in asymmetric ways. Some behaviors act as upstream control points whose interventions propagate broadly across other behaviors, while others remain more isolated. We relate these effects to two geometric quantities: (i) the overlap between behavior subspaces, measured as the average squared cosine of principal angles, and (ii) the angle between each behavior subspace and the decision subspace (capturing the model's final decision e.g., refuse vs. comply). Empirically, intervention effects on other behaviors tend to be larger for behavior pairs with higher subspace overlap, and for source behaviors whose subspaces lie closer (smaller angle) to the decision subspace. These findings highlight a challenge for targeted behavior control: behaviors are difficult to modify independently, as interventions can propagate through shared representations and asymmetric interactions.
- Abstract(参考訳): LLMの特定の振る舞いを変更するために設計された介入(例えば、拒絶や梅毒)は、他の行動に意図しない変化をもたらすことが多い。
この目標制御の欠如は、信頼性の高い安全制御の設計と実装を困難にしている。
これらの副作用を理解するために,LLMにおける相互作用行動を分析するための診断フレームワークを提案する。
我々は、アクティベーション空間における低ランクな部分空間として振舞いをモデル化し、介入が行動全体にどのように影響するかを研究する。
複数の命令チューニングモデル (7B-70B) と、拒絶、ジェイルブレイク、サイコフィナンシー設定全体にわたって、異なる振る舞いが内部表現を共有し、ある振る舞いに介入することは、非対称な方法で他人を変える。
いくつかの行動は上流の制御ポイントとして機能し、他の行動にまたがって介入が広範に伝播するが、他の行動はより孤立したままである。
これらの効果を2つの幾何学量に関連付ける。
一 主角の平均二乗余弦として測定された行動部分空間の重なり
(i) それぞれの行動部分空間と決定部分空間の間の角度(モデルの最終的な決定eg, refuse vs. を満たす)。
経験的に、他の行動に対する介入効果は、より高い部分空間の重なりを持つ振る舞い対と、決定部分空間に(より小さな角度で)近い部分空間の振舞いに対して大きい傾向にある。
介入は共有表現や非対称的相互作用を通じて伝播するので、行動は独立して変更することは困難である。
関連論文リスト
- On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior [9.202404525860189]
狭義の有害データセットを微調整した後に,大規模言語モデルが広範囲に不整合な振る舞いを発達させることができることを示す。
実験結果から,EMは異なる狭いタスクから発生し,同じパラメータの共有方向を見つけることが示唆された。
論文 参考訳(メタデータ) (2025-11-03T19:50:24Z) - Sycophancy Is Not One Thing: Causal Separation of Sycophantic Behaviors in LLMs [1.9693252204587723]
我々は、真の合意とは対照的に、空想的合意と空想的賞賛を分解する。
結果は、サイコファンティックな行動は、独立して選択可能な表現と一致していることを示唆している。
論文 参考訳(メタデータ) (2025-09-25T15:19:39Z) - Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs [0.0]
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
論文 参考訳(メタデータ) (2025-07-04T15:36:58Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering [26.428347164111926]
推論時ステアリングは、パラメータを変更することなく、大きな言語モデルの応答を変更することを目的としている。
既存のアプローチはしばしば単純化的なキューやアドホックな一般化に依存している。
本稿では,Transformerモデルにおける振る舞い関連モジュールを識別するフレームワークであるREALを紹介する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - Interference and Generalization in Temporal Difference Learning [86.31598155056035]
時間差学習における一般化と干渉の関係について検討する。
教師付き学習ではTDが容易に低干渉,低一般化パラメータにつながり,その効果は逆のように見える。
論文 参考訳(メタデータ) (2020-03-13T15:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。