論文の概要: Recoverable but Not Stationary:Local Linear Structures in Weights and Activations
- arxiv url: http://arxiv.org/abs/2606.10929v1
- Date: Tue, 09 Jun 2026 14:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.554662
- Title: Recoverable but Not Stationary:Local Linear Structures in Weights and Activations
- Title(参考訳): 復元可能ではあるが定常ではない:重量と活性化における局所線形構造
- Authors: Irina Piontkovskaia, Sergey Nikolenko,
- Abstract要約: タスクベクトル、LoRA、アクティベーションステアリング、事前訓練された重みまわりのランダムな探索は、学習行動が線形方向によって制御可能であることを示唆している。
強い局所的低ランクタスク勾配構造を見いだすが、固定タスク平面仮説を否定する。
この結果から,訓練ネットワークにおける線形構造はグローバルなタスク方向ではなく,局所的なジオメトリの進化を示唆している。
- 参考スコア(独自算出の注目度): 0.05729426778193398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task vectors, LoRA, activation steering, and random search around pretrained weights all suggest that learned behaviour can be controlled by linear directions. We ask which linear structures actually exist and on what scale. In a synthetic multitask transformer and LoRA adapters on DistilGPT-2 / GPT-2 we find strong local low-rank task-gradient structure but reject the fixed-task-plane hypothesis: static bases miss the recovery direction, and the useful basis drifts substantially within 100 steps. However, the first recovery updates form a trajectory-prefix basis capturing 77% of the LoRA recovery displacement. We develop random search theory with a Gaussian local-linear theorem that justifies the effectiveness of random parameter search even in very high dimensions. We also study the relation between parameter perturbations and activation steering: a single gradient step produces an activation shift with 0.58 cosine to a labelled-contrast CAA steering vector, with a similar steering effect on Qwen-0.5B BoolQ statements. We validate our results with experiments on synthetic Transformers and LLMs. Our results suggest that linear structures in trained networks are not global task directions, but evolving local geometries that partially persist across parameter and activation spaces.
- Abstract(参考訳): タスクベクトル、LoRA、アクティベーションステアリング、事前訓練された重みまわりのランダムな探索は、学習行動が線形方向によって制御可能であることを示唆している。
実際にどの線形構造が存在し、どのスケールで存在するのかを問う。
DistilGPT-2 / GPT-2 上の合成マルチタスク変換器と LoRA アダプタでは、強い局所的な低ランクタスク勾配構造があるが、固定タスク平面仮説を否定する。
しかしながら、最初のリカバリ更新は、LoRAリカバリの77%を捕捉する軌道前修正ベースを形成する。
超高次元においてもランダムパラメータ探索の有効性を正当化するガウス局所線形定理を用いてランダム探索理論を開発する。
また,パラメータ摂動とアクティベーションステアリングの関係についても検討し,コサイン0.58コサインをラベル付きコントラストCAAステアリングベクターにシフトさせ,Qwen-0.5B BoolQ文に対して同様のステアリング効果を示した。
合成変圧器とLLMの実験により, 実験結果の検証を行った。
この結果から,トレーニングネットワークにおける線形構造はグローバルなタスク方向ではなく,パラメータやアクティベーション空間に部分的に持続する局所的ジオメトリの進化を示唆している。
関連論文リスト
- Beyond Linear Activation Steering: Invertible Latent Transformations for Controlling LLM Behavior [13.073472989807675]
INNSteerは非可逆潜在変換に基づく非線形活性化ステアリングフレームワークである。
線形、輸送ベース、非線形ステアリングベースラインに対するモデル制御を一貫して改善する。
論文 参考訳(メタデータ) (2026-06-07T05:01:25Z) - The Cylindrical Representation Hypothesis for Language Model Steering [57.97381760521523]
中心軸は、概念の欠如と存在との主な違いを捉え、概念生成を駆動することを示す。
我々はこれを円筒表現仮説(CRH)として定式化する。
本実験は円筒構造の存在を検証し,CRHが実環境でのモデルステアリング動作の解釈に有効かつ実用的な方法であることを示した。
論文 参考訳(メタデータ) (2026-05-03T12:26:13Z) - Curvature-Guided LoRA: Steering in the pretrained NTK subspace [60.35296431630704]
本稿では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
論文 参考訳(メタデータ) (2026-03-31T14:46:39Z) - Global Evolutionary Steering: Refining Activation Steering Control via Cross-Layer Consistency [12.78111885039368]
アクティベーションエンジニアリングは、微調整の計算コストを伴わずに、大規模言語モデル(LLM)の正確な制御を可能にする。
静的なアクティベーション差からベクトルを導出する既存の手法は、高次元ノイズや階層的なセマンティックドリフトの影響を受けやすい。
本稿では,GERステアリング(Global Evolutionary Refined Steering, GER-steer)を提案する。
論文 参考訳(メタデータ) (2026-03-12T03:45:19Z) - The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology [0.0]
巡回加法(Zp)を訓練した変圧器のグルーキング-遅れ一般化に関する研究
標準変圧器における2つの独立した構造因子:表現の大きさとデータ依存型アテンションルーティングを同定する。
論文 参考訳(メタデータ) (2026-03-05T14:41:01Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - Directional Optimization Asymmetry in Transformers: A Synthetic Stress Test [0.15229257192293197]
変換子は理論的には逆不変であり、その関数クラスは右から左への写像よりも左から右への写像を好まない。
LLMの時間的非対称性に関する最近の研究は、実世界のコーパスが独自の時間的矢印を持っていることを示唆している。
方向性の障害は、言語統計学によるものなのか、あるいはアーキテクチャ自体によるものなのか?
論文 参考訳(メタデータ) (2025-11-25T07:03:20Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。