論文の概要: OptMuon: Closed-Loop Orthogonalized Momentum Methods for Stochastic Optimization with Zero-Noise Optimality
- arxiv url: http://arxiv.org/abs/2606.08783v1
- Date: Sun, 07 Jun 2026 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.445949
- Title: OptMuon: Closed-Loop Orthogonalized Momentum Methods for Stochastic Optimization with Zero-Noise Optimality
- Title(参考訳): OptMuon:ゼロノイズ最適化のための閉ループ直交モーメント法
- Authors: Ganzhao Yuan,
- Abstract要約: 閉ループスカラー運動量を示す。
最適化はムオン型運動量と組み合わせることができる。
雑音適応性とゼロノイズ最適性を対数因子まで保ちながら最適化する。
これらの結果は,OptMuon-Aがノイズレートを達成することを示す。
(T-1/2+1/2T-1/2)を平均滑らかに、OptMuon-Iをノイズレートとする。
(T-1/2+)
- 参考スコア(独自算出の注目度): 23.28384210732827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Orthogonalized momentum updates, as used in Muon-style optimizers, have recently shown strong empirical stability in large-scale deep learning. However, existing orthogonalized methods are typically paired with constant or open-loop magnitude rules, and therefore do not explicitly calibrate their update magnitudes from the observed optimization trajectory. Motivated by the closed-loop perspective behind Lipschitz-free and noise-adaptive methods, we propose OptMuon, a family of adaptive momentum orthogonalization methods for stochastic nonconvex optimization. OptMuon combines Muon-style polar-factor directions with a trajectory-dependent AdaGrad-Norm-type coefficient schedule, so that the update magnitude is determined by the observed gradient and momentum history rather than by a prescribed Lipschitz-dependent rule. The schedule does not use the smoothness constant, the variance level, or the bounded-gradient constant in parameter selection, and its running-maximum correction prevents isolated gradient spikes from causing excessive coefficient collapse. Under lower-boundedness, unbiased stochastic gradients with bounded variance, smoothness, and an almost-sure bounded stochastic-gradient condition, we prove two complementary guarantees. OptMuon-A achieves the noise-adaptive rate \(\tilde{\mathcal O}(T^{-1/2}+σ^{1/2}T^{-1/4})\) under average smoothness, while OptMuon-I achieves \(\tilde{\mathcal O}(T^{-1/2}+σ^{1/3}T^{-1/3})\) under individual smoothness. In the zero-noise regime, both bounds automatically reduce to a nearly optimal deterministic first-order rate \(\tilde{\mathcal O}(T^{-1/2})\) without manual hyperparameter retuning. These results show that closed-loop scalar adaptation can be combined with Muon-style momentum orthogonalization while retaining noise adaptivity and zero-noise optimality up to logarithmic factors.
- Abstract(参考訳): 直交運動量更新は、Muonスタイルのオプティマイザで使われているが、近年、大規模ディープラーニングにおいて強い経験的安定性を示している。
しかし、既存の直交化法は、通常、定数または開ループの等級ルールとペアリングされるため、観測された最適化軌道から更新の等級を明示的に校正することはない。
リプシッツフリーおよび雑音適応法の背後にある閉ループの視点に触発され、確率的非凸最適化のための適応運動量直交法の一つであるOptMuonを提案する。
OptMuonは、Muonスタイルの極性係数方向と軌道依存のAdaGrad-Norm型係数スケジュールを組み合わせることで、更新度は、所定のリプシッツ依存規則ではなく、観測された勾配と運動量履歴によって決定される。
スケジュールはパラメータ選択において、滑らか性定数、分散レベル、および有界勾配定数を使用しず、そのランニング・最大補正は、孤立した勾配スパイクが過度な係数崩壊を引き起こすのを防ぐ。
下界性,非バイアス性確率勾配,有界分散,滑らか性,およびほぼ有界な確率勾配条件の下では,2つの相補的保証が証明される。
OptMuon-A は平均滑らか度で雑音適応率 \(\tilde{\mathcal O)(T^{-1/2}+σ^{1/2}T^{-1/4})\) 、一方 OptMuon-I は個別滑らか度で \(\tilde{\mathcal O}(T^{-1/2}+σ^{1/3}T^{-1/3})\) を達成する。
ゼロノイズ系では、両方の境界は、手動のハイパーパラメータ再構成なしで、ほぼ最適な決定論的1次速度 \(\tilde{\mathcal O}(T^{-1/2})\) に自動的に減少する。
これらの結果から、閉ループスカラー適応は、雑音適応性とゼロノイズ最適性を対数因子まで保ちながら、ムオン型運動量直交化と組み合わせることができることがわかった。
関連論文リスト
- OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality [23.28384210732827]
我々はOptEMAを導入し、OptEMA-MとOptEMA-Vの2つの新しい変種を分析した。
OptEMA は閉ループであり、その実効的な階段化は軌道依存であり、パラメータ化にリプシッツ定数を必要としないという意味でリプシッツ自由である。
どちらの変種も平均勾配ノルムに対して$widetildemathcalO(T-1/2+1/2 T-1/4)$の雑音適応収束率を得る。
論文 参考訳(メタデータ) (2026-03-10T17:19:54Z) - RanSOM: Second-Order Momentum with Randomized Scaling for Constrained and Unconstrained Optimization [1.3537117504260623]
Polyak's Heavy Ballのようなモメンタム法はディープネットワークのトレーニングの標準であるが、設定の曲率に起因したバイアスに悩まされている。
textbfRanSOMは、決定論的ステップサイズを、平均$_t$で分布から引き出されたランダム化ステップに置き換えることで、このバイアスを解消する統合フレームワークである。
我々はこのフレームワークを,制約のない最適化のための textbfRanSOM-E と制約のない最適化のための textbfRanSOM-B の2つのアルゴリズムでインスタンス化する。
論文 参考訳(メタデータ) (2026-02-06T16:09:36Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。