論文の概要: Catastrophic Forgetting is Low-Rank: A Function-Space Theory for Continual Adaptation
- arxiv url: http://arxiv.org/abs/2606.18024v1
- Date: Tue, 16 Jun 2026 15:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.502558
- Title: Catastrophic Forgetting is Low-Rank: A Function-Space Theory for Continual Adaptation
- Title(参考訳): カタストロフィックフォーミングは低ランク--連続的適応のための関数空間理論
- Authors: Ido Nitzan Hidekel, Dan Raviv,
- Abstract要約: 新しいタスクトレーニングは、クロスタスクカーネルを通して古いタスク予測ドリフトを誘導する。
トレーニング可能なパラメータにおいてモデルが線形であるフリーズバックボーンリニアヘッドPEFT-CLでは、予測器は正確に数値的精度である。
- 参考スコア(独自算出の注目度): 5.220809937383775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting in continual adaptation is usually studied through parameter drift, replay, or distillation, but these views do not identify which output-space directions are vulnerable. We give a function-space account in the NTK regime: new-task training induces old-task prediction drift through the cross-task kernel, yielding a closed-form predictor for the forgetting vector before any new-task gradient step. In frozen-backbone linear-head PEFT-CL, where the model is linear in the trainable parameters, the predictor is exact up to numerical precision; for nonlinear adapters/full fine-tuning, it is a local NTK approximation. The same expression reveals that forgetting concentrates in a small number of old-task NTK eigenmodes and under frozen linear heads gives a Kronecker scaling rule for the vulnerable rank. These results clarify the relation to prior NTK-overlap theory, explain why parameter-space regularizers can miss output-space interference, and motivate a targeted spectral regularizer.
- Abstract(参考訳): 連続的な適応における破滅的な忘れは、通常パラメータドリフト、リプレイ、蒸留を通じて研究されるが、これらの見解はどの出力空間方向が脆弱であるかを識別しない。
我々はNTKシステムに関数空間のアカウントを与える:新タスクトレーニングは、クロスタスクカーネルを通して古いタスク予測のドリフトを誘導し、新しいタスク勾配ステップの前に忘れるベクトルのクローズドフォーム予測子を生成する。
トレーニング可能なパラメータにおいてモデルが線形であるフリーズバックボーン線形ヘッドPEFT-CLでは、予測器は正確な数値精度で、非線形アダプタ/フル微調整では局所NTK近似である。
同じ表現は、少数の古いタスク NTK 固有モデムと凍結されたリニアヘッドの下に集中することを忘れることが、脆弱なランクに対するクロネッカースケーリングルールを与えることを示している。
これらの結果は、NTKオーバラップ理論との関係を明らかにし、パラメータ空間正規化器が出力空間干渉を見逃し、ターゲットスペクトル正規化器を動機付ける理由を説明する。
関連論文リスト
- Why SGD is not Brownian Motion: A New Perspective on Stochastic Dynamics [92.39053980710702]
グラディエント・Descent (SGD) は通常ランゲヴィン過程としてモデル化され、ミニバッチノイズがブラウン運動として働くと仮定される。
この近似は、連続時間制限と、離散的なSGD更新を有限学習率で一致しないsqrt(eta)ノイズスケーリングに依存している。
ミニバッチサンプリングによって誘導されるゆらぎのある損失景観における決定論的力学としてのSGDの別の定式化を提案する。
論文 参考訳(メタデータ) (2026-05-21T15:50:40Z) - The Global Empirical NTK: Self-Referential Bias and Dimensionality of Gradient Descent Learning [13.950010831924823]
我々は,グローバル経験的ニューラルタンジェントカーネル (NTK) の構造をモデルとして検討した。
NTKは構造的にボトルネックがあり,その有効ランクを制約し,自己参照バイアスを生じさせることを示す。
全体として、NTKは、タスクソリューションに対するGDバイアスを説明できる、トラクタブルな構造を持っていることを示す。
論文 参考訳(メタデータ) (2026-05-09T07:22:29Z) - Pretraining Induces a Reusable Spectral Basis for Downstream Task Adaptation [10.547646302449682]
微調整事前訓練されたモデルは、全パラメータ空間の低次元部分空間で発生する。
ダウンストリームタスクとは無関係な安定方向か、それとも、追加調整を必要としないタスク関連構造をすでにエンコードしているか?
事前学習した重み行列の先頭特異ベクトルは、微調整の下で非常に安定であり、無関係な下流タスク間で共有されることを示す。
論文 参考訳(メタデータ) (2026-05-08T06:12:43Z) - Curvature-Guided LoRA: Steering in the pretrained NTK subspace [60.35296431630704]
本稿では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
論文 参考訳(メタデータ) (2026-03-31T14:46:39Z) - The Curvature Rate λ: A Scalar Measure of Input-Space Sharpness in Neural Networks [0.0]
曲線は一般化、堅牢性、ニューラルネットワークが小さな入力摂動にいかに確実に反応するかに影響を及ぼす。
入力空間で直接定義されるスカラー曲率測度、すなわち曲率ラムダを導入する。
ラムダは、決定境界における高周波構造の出現を追跡する。
論文 参考訳(メタデータ) (2025-11-03T10:46:03Z) - Nonlocal Neural Tangent Kernels via Parameter-Space Interactions [0.0]
Neural Tangent Kernel(NTK)は、勾配流下でのニューラルネットワークのトレーニングダイナミクスに関する洞察を提供する。
本稿では,局所勾配をパラメータ空間の非局所的相互作用に基づく近似に置き換える非局所ニューラルネットワークカーネル(NNTK)を提案する。
論文 参考訳(メタデータ) (2025-09-15T21:23:47Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Disentangling Generative Factors of Physical Fields Using Variational
Autoencoders [0.0]
本研究は,非線形次元低減のための変分オートエンコーダ (VAE) の利用について検討する。
不整合分解は解釈可能であり、生成的モデリングを含む様々なタスクに転送することができる。
論文 参考訳(メタデータ) (2021-09-15T16:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。