Fugu-MT 論文翻訳(概要): Free Heavy-Tailed Lunch for Muon: A Theoretical Justification of Empirical Success

論文の概要: Free Heavy-Tailed Lunch for Muon: A Theoretical Justification of Empirical Success

arxiv url: http://arxiv.org/abs/2606.14560v1
Date: Fri, 12 Jun 2026 15:37:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 16:00:42.961226
Title: Free Heavy-Tailed Lunch for Muon: A Theoretical Justification of Empirical Success
Title（参考訳）: ムーン用フリーヘビープレートランチ : 経験的成功の理論的正当化
Authors: Florian Hübler, Thomas Pethick, Suvrit Sra,
Abstract要約: 非フラクシアントランスフォーマーの更新は、特定の設定で競合的に実行可能であることを示す。意外なことに、このサンプルは、核軌道下での全ての一階法に最適である。以上の結果から,他のスペクトル幾何は特定の条件下で競争力を発揮することが示唆された。
参考スコア（独自算出の注目度）: 26.792629169897747
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Non-Euclidean optimisation methods with matrix-valued updates, such as Muon and Scion, have recently shown strong empirical performance for training Transformer models, yet their theoretical advantages over Euclidean methods remain poorly understood. We address this gap in the heavy-tailed non-convex regime, where stochastic gradients have bounded $p$-th central moments, $p \in (1,2]$. We show that certain non-Euclidean methods achieve optimal sample complexity under stronger stationarity measures, while Euclidean methods incur additional dimension-dependent costs. As a consequence, for $m \times n$ matrices, Muon finds an $\varepsilon$-stationary point in nuclear norm within $\mathcal{O}\left(\min\{m, n\} \frac{Δ_1 L}{\varepsilon^2} \left(\frac σ\varepsilon \right)^{\frac p {p-1}}\right)$ samples, absorbing heavy-tailed noise without extra dimension dependence, unlike Euclidean methods. We further prove this sample complexity, including its dimension dependence, is optimal for all first-order methods under nuclear-norm stationarity. Experiments on large language models support our theory. Surprisingly, our results suggest that other Schatten geometries beyond the spectral geometry of Muon can perform competitively in certain settings.
Abstract（参考訳）: Muon や Scion のような行列値更新を用いた非ユークリッド最適化法は、最近、トランスフォーマーモデルのトレーニングにおいて強い経験的性能を示したが、ユークリッド法に対する理論的優位性はよく分かっていない。このギャップは、確率勾配が中心モーメントの$p$-th、$p \in (1,2]$と有界な重み付き非凸系において解決される。非ユークリッド的手法がより強い定常度尺度の下で最適なサンプル複雑性を達成するのに対し、ユークリッド的手法は追加の次元依存コストを発生させることを示す。結果として、$m \times n$ matrices に対して、ムオンは$\mathcal{O}\left(\min\{m, n\} \frac{Δ_1 L}{\varepsilon^2} \left(\frac σ\varepsilon \right)^{\frac p {p-1}}\right)$サンプルの核ノルムにおける $\varepsilon$-stationary point を、ユークリッド法とは異なり、余剰次元に依存することなく吸収する。さらに、その次元依存性を含むこのサンプルの複雑さは、核-ノルム定常条件下での全ての一階法に最適であることを示す。大規模言語モデルの実験は我々の理論を支持している。意外なことに、我々の結果は、ムオンのスペクトル幾何学以外の他のシャッテン測度は、特定の設定で競合的に実行可能であることを示唆している。

関連論文リスト

Entropic Riemannian Neural Optimal Transport [41.69130102668252]
本稿では,内在性エントロピーOTと外乱評価を併用した統合フレームワークを提案する。私たちのメソッドは、$mathbbS2$, $mathrmSO(3)$, $mathrmSPD(3)$, $mathrmSE(3)$, $mathbbH2$のベンチマーク上で、Euclidean、tangent-space、log-Euclideanのベースラインと一致または改善します。
論文参考訳（メタデータ） (2026-05-05T19:43:03Z)
Non-Euclidean Broximal Point Method: A Blueprint for Geometry-Aware Optimization [55.002497070656624]
Broximal Point Method(BPM)は、現在の反復を中心にした標準球よりも目的関数を反復的に最小化する、理想的な最適化フレームワークを提供する。顕著な大域収束保証、線形収束、および正規閉凸函数に対する有限のステップを享受する。本稿では、BPMの収束理論が、このより一般的な非ユークリッド的な設定に拡張できるかどうかを問う。
論文参考訳（メタデータ） (2025-10-01T12:32:52Z)
Approximating fixed size quantum correlations in polynomial time [8.099700053397278]
固定サイズの2プレーヤフリーゲームの最適値に対する$varepsilon$-additive近似が時間内に計算可能であることを示す。我々の主な結果は、制約付き量子分離性問題に適した新しいボース対称量子デフィネッティ定理に基づいている。
論文参考訳（メタデータ） (2025-07-16T15:01:45Z)
Local Averaging Accurately Distills Manifold Structure From Noisy Data [4.63748375343038]
局所平均化(Local averaging)は、多様体のフィッティングとデノイングのための最先端の証明可能な手法の基盤である。本稿では,$d$次元多様体から得られた雑音サンプルに対して,2ラウンドの局所平均化法について理論的に解析する。提案手法は,低雑音環境向けに設計された幅広い証明可能な手法の事前処理ステップとして機能する。
論文参考訳（メタデータ） (2025-06-23T15:32:16Z)
Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文参考訳（メタデータ） (2025-06-02T17:34:29Z)
Nonlinear Stochastic Gradient Descent and Heavy-tailed Noise: A Unified Framework and High-probability Guarantees [56.80920351680438]
本研究では,重音の存在下でのオンライン学習における高確率収束について検討する。ノイズモーメントを仮定することなく、幅広い種類の非線形性を保証する。
論文参考訳（メタデータ） (2024-10-17T18:25:28Z)
Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文参考訳（メタデータ） (2024-05-10T09:58:47Z)
Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文参考訳（メタデータ） (2024-04-29T15:04:07Z)
The Dimension Strikes Back with Gradients: Generalization of Gradient Methods in Stochastic Convex Optimization [30.26365073195728]
基本凸最適化設定における勾配法の一般化性能について検討する。同様の構成手法を適用すると、SGDのサンプル複雑性に対して同様の$Omega(sqrtd)$ローバウンドが得られ、非自明な経験的誤差に達することが示される。
論文参考訳（メタデータ） (2024-01-22T15:50:32Z)
Fermionic partial tomography via classical shadows [0.0]
そこで本研究では,n$モードフェルミオン状態の密度行列(k$-RDM)を推定するためのトモグラフィープロトコルを提案する。量子状態特性の集合をランダムに学習する手法である古典的影の枠組みをフェルミオン設定に拡張する。
論文参考訳（メタデータ） (2020-10-30T06:28:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。