論文の概要: Muon$^p$: Muon with Fractional Spectral Powers
- arxiv url: http://arxiv.org/abs/2606.13867v1
- Date: Thu, 11 Jun 2026 19:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.619888
- Title: Muon$^p$: Muon with Fractional Spectral Powers
- Title(参考訳): Muon$^p$: 分数スペクトルパワーを持つミューオン
- Authors: Yihe Dong, Will Sawin,
- Abstract要約: Muon はますます広く使われる勾配であり、$G=USVtop$ を極係数 $UVtop$ に置き換える。
代わりに、有理な$pin(0,1)$に対して、分数スペクトルパワー更新$USpVtop$を使用するMuon$p$を導入する。
以上の結果から, 特異スペクトルの保存が大きな利得をもたらす可能性について重要な知見が得られ, それらを実現するための原則的方法が導入された。
- 参考スコア(独自算出の注目度): 3.223825674658464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Muon is an increasingly widely used optimizer that replaces a gradient $G=USV^\top$ with its polar factor $UV^\top$, thereby flattening the singular spectrum. However, full flattening discards singular-value information that may matter for adaptation. We introduce Muon$^p$, a Muon-style optimizer that instead uses fractional spectral-power updates $US^pV^\top$ for rational $p\in(0,1)$, interpolating between Muon and gradient descent. To make it practical, we prove that fractional spectral powers cannot be computed by any fixed univariate polynomial iteration, and furthermore derive low-degree odd bivariate recurrences that approximate $US^pV^\top$ using only matrix multiplications, preserving Muon's matrix-multiplication-only structure and compute complexity. We show that Muon$^p$ maximizes the linear improvement in loss under the Schatten $q$-norm for $q=1+\frac{1}{p}$. Empirically, Muon$^p$ is especially effective for finetuning: on billion-scale models, Muon$^p$ improves validation perplexity and downstream task performance. We further analyze when Muon$^p$ is less suitable, through the lens of spectral geometry. Our results reveal important insights on when preserving the singular spectrum can bring significant gains, and introduce a principled way to achieve them.
- Abstract(参考訳): Muon は、勾配 $G=USV^\top$ を極係数 $UV^\top$ に置き換え、特異スペクトルを平らにする、ますます広く使われるオプティマイザである。
しかし、完全な平坦化は適応に重要な特異値情報を捨てる。
その代わりに、有理な$p\in(0,1)$に対して、分数スペクトルパワー更新$US^pV^\top$を使用し、ミューオンと勾配降下を補間するミューオン式オプティマイザであるMuon$^p$を導入する。
さらに、行列乗算のみを用いて$US^pV^\top$を近似し、Muonの行列乗算のみの構造と計算複雑性を保った低次奇二変量再発を導出する。
我々は、Muon$^p$がSchatten $q$-norm for $q=1+\frac{1}{p}$で損失の線形改善を最大化することを示した。
Muon$^p$は、数十億規模のモデルにおいて、検証の難易度とダウンストリームタスクのパフォーマンスを改善する。
さらに、スペクトル幾何学のレンズを用いて、Muon$^p$が適当でないときの分析を行う。
この結果から, 特異スペクトルの保存が大きな利得をもたらす可能性について重要な知見が得られ, それらを実現するための原則的方法が導入された。
関連論文リスト
- MiMuon: Mixed Muon Optimizer with Improved Generalization for Large Models [45.11415579822849]
アルゴリズムの安定性と数学的帰納率に基づくMuonの一般化誤差について検討する。
そこで我々は,Muonと運動量に基づくSGDのハイブリッドである勾配を用いて,有効混合Muon(MiMuon)を提案する。
我々のMiMuonアルゴリズムは、Muonアルゴリズムと同じコンバージェンスレートが$O(frac1NTbig)$である。
論文 参考訳(メタデータ) (2026-05-19T09:56:27Z) - DynMuon: A Dynamic Spectral Shaping View of Muon [12.175075916077702]
M$を$Up Vtop$に置き換え、あるパラメータを$p$にします。
そこで我々はDynMuonを提案する。DynMuonは、トレーニング時に正からわずかに負に$p$をスケジュールする効率的な動的スペクトル整形法である。
論文 参考訳(メタデータ) (2026-05-16T18:30:11Z) - Muon is Not That Special: Random or Inverted Spectra Work Just as Well [50.969177887027115]
正確な幾何構造が性能に影響を及ぼす重要な要因ではないことを実証する。
ここでは、Schatten (quasi-size)normsに基づく幾何学のファミリであるFreonを紹介する。
また、特異値をランダムノイズで置き換える不条理なKaonを導入する。
論文 参考訳(メタデータ) (2026-05-11T19:42:48Z) - Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning [18.570226339282296]
Muonは、大規模な基礎モデル事前トレーニングのための有望な計算として登場した。
メモリオーバーヘッドが無視できるMuon$2$のゲインをほとんど保存するメモリ効率の係数化変種であるMuon$2$を提案する。
論文 参考訳(メタデータ) (2026-04-11T00:27:40Z) - Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - Muon Optimizes Under Spectral Norm Constraints [12.29696026957078]
重み行列のスペクトルノルムに制約を課す最適化問題を暗黙的に解くことを示す。
この観点は、暗黙的に正規化され制約付き最適化アルゴリズムのより広範なクラスを探索することを可能にする。
論文 参考訳(メタデータ) (2025-06-18T01:32:39Z) - The Power of Subsampling in Submodular Maximization [51.629656762796564]
このアプローチは,既存の手法よりもはるかに単純であるにもかかわらず,最適/最先端の結果をもたらすことを示す。
我々は,映像要約,位置情報要約,映画推薦タスクにおけるアルゴリズムの有効性を実証的に示す。
論文 参考訳(メタデータ) (2021-04-06T20:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。