論文の概要: MGUP: A Momentum-Gradient Alignment Update Policy for Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2606.17526v1
- Date: Tue, 16 Jun 2026 05:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.281107
- Title: MGUP: A Momentum-Gradient Alignment Update Policy for Stochastic Optimization
- Title(参考訳): MGUP:確率最適化のためのMomentum-Gradient Alignment Update Policy
- Authors: Da Chang, Ganzhao Yuan,
- Abstract要約: 選択的更新のための新しいメカニズムである textbfMGUP を提案する。
textbfMGUPは、より大きなステップサイズを適用することで、標準モーメントベースの比率を増大させる。
textbfMGUPはAdamW、Lion、Muonとシームレスに統合される。
- 参考スコア(独自算出の注目度): 21.42805615044331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient optimization is essential for training large language models. Although intra-layer selective updates have been explored, a general mechanism that enables fine-grained control while ensuring convergence guarantees is still lacking. To bridge this gap, we propose \textbf{MGUP}, a novel mechanism for selective updates. \textbf{MGUP} augments standard momentum-based optimizers by applying larger step-sizes to a selected fixed proportion of parameters in each iteration, while applying smaller, non-zero step-sizes to the rest. As a nearly {plug-and-play} module, \textbf{MGUP} seamlessly integrates with optimizers such as AdamW, Lion, and Muon. This yields powerful variants such as \textbf{MGUP-AdamW}, \textbf{MGUP-Lion}, and \textbf{MGUP-Muon}. Under standard assumptions, we provide theoretical convergence guarantees for \textbf{MGUP-AdamW} (without weight decay) in stochastic optimization. Extensive experiments across diverse tasks, including MAE pretraining, LLM pretraining, and downstream fine-tuning, demonstrate that our \textbf{MGUP}-enhanced optimizers achieve superior or more stable performance compared to their original base optimizers. We offer a principled, versatile, and theoretically grounded strategy for efficient intra-layer selective updates, accelerating and stabilizing the training of large-scale models. The code is publicly available at https://github.com/MaeChd/MGUP.
- Abstract(参考訳): 大規模言語モデルのトレーニングには,効率的な最適化が不可欠だ。
層内選択的な更新が検討されているが、収束保証を確保しつつきめ細かな制御を可能にする一般的なメカニズムはいまだに欠如している。
このギャップを埋めるために、選択的な更新のための新しいメカニズムである \textbf{MGUP} を提案する。
\textbf{MGUP} は、各イテレーションにおいて、選択された固定されたパラメータの割合により大きなステップサイズを適用し、残りのイテレーションに小さなゼロでないステップサイズを適用することで、標準運動量ベースのオプティマイザを強化する。
ほぼ {plug-and-play} モジュールである \textbf{MGUP} は、AdamW, Lion, Muon などのオプティマイザとシームレスに統合される。
これにより \textbf{MGUP-AdamW}, \textbf{MGUP-Lion}, \textbf{MGUP-Muon} のような強力な変種が得られる。
標準的な仮定の下では、確率的最適化において(重み付けを伴わない) textbf{MGUP-AdamW} に対して理論的収束を保証する。
MAEプリトレーニング、LLMプリトレーニング、ダウンストリーム微調整を含む多種多様なタスクにわたる広範囲な実験により、我々の \textbf{MGUP} 強化オプティマイザは、元のベースオプティマイザよりも優れた、あるいはより安定したパフォーマンスを達成することを示した。
我々は,大規模モデルのトレーニングを加速し,安定化する,効率的な層内選択更新のための原理的,汎用的,理論的に基礎的な戦略を提供する。
コードはhttps://github.com/MaeChd/MGUPで公開されている。
関連論文リスト
- Rethinking Language Model Scaling under Transferable Hypersphere Optimization [67.38433364607897]
モデル幅、深さ、トレーニングトークン、エキスパート・オブ・エキスパート(MoE)間で最適な学習率を転送する最初のフレームワークであるHyperPを紹介します。
単一のベースレートでHyperPの計算予算をまたいだデータ転送を調整し、強力な Muon ベースラインを 6times1021$ FLOPs で1.58 タイムで達成した。
また、超球面制約から派生したMoEゲーティング機構であるSqrtGateを提案し、MoEの粒度にわたって出力RMSを保存する。
論文 参考訳(メタデータ) (2026-03-30T17:51:47Z) - Extending $μ$P: Spectral Conditions for Feature Learning Across Optimizers [3.5708391029226885]
本稿では,AdamW, AD, LAMB, Sophia, Shampoo, Muon など,より広範な派生のクラスに対して$P を導出する新しいフレームワークを提案する。
我々は、複数のベンチマークモデルに$Psを実装し、モデル幅の増大にまたがるゼロショット学習率の伝達を示す。
論文 参考訳(メタデータ) (2026-02-24T14:17:51Z) - Controlled LLM Training on Spectral Sphere [76.60985966206746]
重み付けと更新の両方に厳密なモジュール単位のスペクトル制約を課す textbfSpectral Sphere アルゴリズム (SSO) を導入する。
我々は,MoEルータロードバランシングの改善,外乱抑制,厳密な制限付きアクティベーションなど,重要な実用的安定性の利点を観察した。
論文 参考訳(メタデータ) (2026-01-13T09:59:47Z) - POME: Post Optimization Model Edit via Muon-style Projection [74.73326657229347]
POME(Post-Optimization Model Edit)は、微調整された大規模言語モデルの性能を向上させる。
デルタW$のミューオン式のプロジェクションを使い、微調整された重量と事前訓練された重量の違いを区別する。
単純な後処理ステップとして、POMEはトレーニングパイプラインから完全に分離される。
論文 参考訳(メタデータ) (2025-10-08T04:20:11Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。