論文の概要: FOGO: Forgetting-aware Orthogonalization Optimizer
- arxiv url: http://arxiv.org/abs/2606.10406v1
- Date: Tue, 09 Jun 2026 04:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.322457
- Title: FOGO: Forgetting-aware Orthogonalization Optimizer
- Title(参考訳): FOGO:オリゴナライゼーション最適化ツール
- Authors: Toan Nguyen, Yang Liu, Trung Le, Celso de Melo, Flora D. Salim,
- Abstract要約: 我々は、忘れることは連続学習に限らず、一般的な最適化現象であると主張する。
両体制間の干渉を継続的に検出し,解決するスケーラブルな勾配であるFOGOを導入する。
FOGOは一貫して収束と知識の保持を改善し、AdamとMuonを上回っている。
- 参考スコア(独自算出の注目度): 21.464454254585387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that forgetting is not confined to continual learning but is a general optimization phenomenon: during standard training, dominant mini-batch gradients suppress rare but useful update directions, causing short-term forgetting at every step. When such knowledge is never revisited, these losses compound into long-term forgetting-the classical failure mode of continual learning. We introduce FOGO, a scalable optimizer that continuously detects and resolves gradient interference across both regimes. FOGO spectrally orthogonalizes momentum updates to prevent dominant directions from monopolizing optimization, then stores representative past directions in a compact codebook memory built on random projection, where pairwise distances are provably preserved in low-dimensional space. At each step, conflicts between the current update and stored directions are resolved via lightweight orthogonal correction and lifted back through a proximal step, with minimal overhead and no data storage. Across class-imbalanced classification, continual visual learning under domain and class shifts, continual fine-tuning of LLaVA-7B, and GPT-2 pretraining, FOGO consistently improves convergence and knowledge retention, outperforming Adam and Muon.
- Abstract(参考訳): 我々は、忘れることは連続的な学習に限定されるものではなく、一般的な最適化現象であると主張する。
このような知識が再考されることがなければ、これらの損失は長期的忘れ去られ、古典的な失敗モードである継続的学習に結びつく。
FOGOは,両レシスタンス間の勾配干渉を連続的に検出し,解消するスケーラブルなオプティマイザである。
FOGOは運動量更新を分光的に直交し、支配的な方向が最適化されるのを防ぎ、ランダムプロジェクション上に構築されたコンパクトなコードブックメモリに代表過去の方向を格納する。
各ステップで、現在の更新と保存された方向の衝突は、軽量な直交補正によって解決され、最小限のオーバーヘッドとデータストレージなしで、近位ステップを通じて持ち上げられる。
クラス不均衡の分類、ドメインとクラスシフトによる連続的な視覚学習、LLaVA-7Bの連続的な微調整、GPT-2事前訓練、FOGOは一貫して収束と知識保持を改善し、AdamとMuonを上回っている。
関連論文リスト
- Two-Way Is Better Than One: Bidirectional Alignment with Cycle Consistency for Exemplar-Free Class-Incremental Learning [6.63181149575886]
サイクル一貫性を目標としたプロジェクタ双方向アライメント手法であるBiCycを紹介する。
そこで本研究では,BiCycが事前学習した微粒化機構において競争力を維持しつつ,スクラッチ設定時の忘れを著しく低減し,精度を向上することを示す。
論文 参考訳(メタデータ) (2026-06-04T03:57:33Z) - Spectral Imbalance Causes Forgetting in Low-Rank Continual Adaptation [58.3773038915023]
継続的な学習は、事前訓練されたモデルを、以前取得した知識を忘れずにシーケンシャルなタスクに適応することを目的としている。
既存のほとんどのアプローチは、現在のタスク固有の更新が以前取得した知識を自然に保存するプロパティを考慮せずに、継続的な学習を過去の更新への干渉を避けるものとして扱う。
本稿では,視覚言語モデルで使用される標準深度ドットと互換性のある一階述語法を用いてこの問題に対処する。
論文 参考訳(メタデータ) (2026-01-31T13:27:02Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [14.321060805197874]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。