論文の概要: The Spectral Dynamics and Noise Geometry of Muon
- arxiv url: http://arxiv.org/abs/2606.08388v1
- Date: Sun, 07 Jun 2026 00:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.078384
- Title: The Spectral Dynamics and Noise Geometry of Muon
- Title(参考訳): ミューオンのスペクトルダイナミクスとノイズ幾何学
- Authors: Pierfrancesco Beneventano, Mahmoud Abdelmoneum, Tomaso Poggio,
- Abstract要約: Muon は行列勾配 $G=UVtop$ を極係数 $UVtop$ に置き換える。
この操作によって生成される最適化バイアスについて検討する。
- 参考スコア(独自算出の注目度): 0.6335848702857036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Muon replaces a matrix gradient $G=UΣV^\top$ by its polar factor $UV^\top$. This keeps the singular directions selected by the gradient, but makes the update spectrum flat. We study the optimization bias created by this operation. Under explicit alignment assumptions, we prove that the polar update is the one-step entropy-maximizing choice among bounded updates that use the gradient singular directions and do not adapt to the current weight spectrum. In an underdetermined regression model, we derive exact singular-value dynamics for continuous-time Muon and identify a measurement-dependent condition under which the normalized spectrum moves toward equal nonzero singular values. This geometry also rules out a common low-rank interpretation: at fixed Frobenius norm, Muon's distinguished state has a flat spectrum, whereas nuclear-norm minimization favors spectral concentration. Controlled matrix-sensing experiments separate the effect from simple gradient rescaling, show that norm-matched gradient descent does not reproduce Muon, and recover the predicted flattening trend across broad ablations. In small NanoGPT pretraining, Muon preserves stable rank, has a broad learning-rate plateau, and improves validation loss relative to AdamW; in a matched small-ViT control, the ranking reverses. The resulting picture is regime-dependent: Muon is not universally superior, but its flat-spectrum bias can help when many spectral directions need to remain active.
- Abstract(参考訳): Muon は行列勾配 $G=UΣV^\top$ を極係数 $UV^\top$ に置き換える。
これは勾配によって選択される特異な方向を保持するが、更新スペクトルを平坦にする。
この操作によって生成される最適化バイアスについて検討する。
明示的なアライメントの仮定の下では、偏極更新は、勾配特異方向を使用し、現在のウェイトスペクトルに適応しない有界更新のうち、一段階のエントロピー最大化選択であることを示す。
非決定回帰モデルでは、連続時間ムーンに対する正確な特異値力学を導出し、正規化スペクトルが等しい非ゼロ特異値に向かって移動する測定依存条件を同定する。
固定されたフロベニウスノルムでは、ムオンの傑出した状態は平坦なスペクトルを持ち、核ノルムの最小化はスペクトル濃度を好む。
制御されたマトリックスセンシング実験は、単純な勾配再スケーリングから効果を分離し、標準整合勾配降下がミューオンを再現しないことを示すとともに、広範囲にわたる予測された平坦化傾向を回復させる。
小型のNanoGPTプレトレーニングでは、Muonは安定なランクを維持し、学習速度が広く、AdamWと比較してバリデーション損失を改善する。
ムオンは普遍的に優れているわけではないが、その平坦なスペクトルバイアスは多くのスペクトル方向が活発なままでいなければならない場合に有効である。
関連論文リスト
- OptMuon: Closed-Loop Orthogonalized Momentum Methods for Stochastic Optimization with Zero-Noise Optimality [23.28384210732827]
閉ループスカラー運動量を示す。
最適化はムオン型運動量と組み合わせることができる。
雑音適応性とゼロノイズ最適性を対数因子まで保ちながら最適化する。
これらの結果は,OptMuon-Aがノイズレートを達成することを示す。
(T-1/2+1/2T-1/2)を平均滑らかに、OptMuon-Iをノイズレートとする。
(T-1/2+)
論文 参考訳(メタデータ) (2026-06-07T18:59:24Z) - Spectral Flattening Is All Muon Needs: How Orthogonalization Controls Learning Rate and Convergence [15.754779716816174]
ムオンの最大安定ステップサイズは、最大ではなく、勾配の平均特異値でスケールすることを示す。
我々はMuonを事前条件付き勾配法として再評価し、Kronecker-factored curvatureモデルの下で有効収束係数を改善することを示す。
論文 参考訳(メタデータ) (2026-05-13T06:54:01Z) - Gradient Clipping Beyond Vector Norms: A Spectral Approach for Matrix-Valued Parameters [48.3175117923623]
ほとんどの勾配クリッピング規則は、全てのパラメータを重ベクトルとして扱い、現代のベクトルの行列構造を無視する。
実験により、データのアウトリーチは、少数のリード特異値のみを増幅することを示した。
この現象を動機として,特異値で安定化するクリッピングを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:24:59Z) - Muown: Row-Norm Control for Muon Optimization [41.541871767555484]
Muonは、言語モデルの事前トレーニングにおいてAdamWと強く競合する。
Muownは、Muon、SOAP、AdamW、Lionの複雑さを改善します。
論文 参考訳(メタデータ) (2026-05-11T16:26:06Z) - Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning [72.62839712454196]
スペクトル最適化の最近の進歩、特にムーンは、スティーフェル多様体への更新ステップの制限が、トレーニングと改善を著しく加速することを示した。
我々は、この「利他的」制約は、曲率スペクトルが非常に重く、不調であることが知られているディープニューラルネットワークに最適であると主張している。
textbfShampoo の textbfStruct を利用した textbfMousse (textbfMuon textbfOptimization textbfUtilizing textbfShampoo's textbfStruct を提案する。
論文 参考訳(メタデータ) (2026-03-10T14:03:49Z) - Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval [13.218607858857295]
スペクトル勾配法は、スケールを捨てながら方向情報を保存することによって勾配の更新を変更する。
非線形位相探索モデルの動的解析により,これらの利得のメカニズムを解明する。
論文 参考訳(メタデータ) (2026-01-30T07:12:58Z) - Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - When do spectral gradient updates help in deep learning? [7.5757345574662205]
本稿では,スペクトル更新によってユークリッド勾配よりも損失の減少が大きくなることを予測できる簡単な条件を提案する。
我々はこれらの予測を合成回帰実験やナノGPTスケール言語モデルトレーニングで検証する。
論文 参考訳(メタデータ) (2025-12-03T22:22:09Z) - Gradient Equilibrium in Online Learning: Theory and Applications [56.02856551198923]
勾配平衡は標準オンライン学習法によって達成される。
勾配平衡は、オンライン予測問題において解釈可能かつ有意義な性質に変換される。
勾配平衡フレームワークは,ブラックボックス予測の偏りを緩和する手法の開発に利用できることを示す。
論文 参考訳(メタデータ) (2025-01-14T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。