論文の概要: Muown Implicitly Performs Angular Step-size Decay
- arxiv url: http://arxiv.org/abs/2606.23637v1
- Date: Mon, 22 Jun 2026 17:28:45 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-24 20:29:39.593666
- Title: Muown Implicitly Performs Angular Step-size Decay
- Title(参考訳): MuownがAngularのステップサイズダウンを突如達成
- Authors: Florian Hübler, Kai Lion, Antonio Orvieto, Niao He,
- Abstract要約: Muon や Muown のようなマトリックス対応の修正版は、最近、事前学習型トランスフォーマーに強い経験的性能を示している。
予備バージョンは、ナノGPTスピードランニングコンペティションの最適化カテゴリをリードしている。
Qwen2-0.5B と 1.1B のパラメータ混合モデルに関するさらなる実験は、小さなモデルを超えてアルゴリズムのスケールを確認する。
- 参考スコア(独自算出の注目度): 34.85105555596643
- License:
- Abstract: Matrix-aware optimizers such as Muon and Muown have recently shown strong empirical performance for pre-training Transformers. In particular, Muown separates each weight matrix into row magnitudes and an un-normalized direction variable, updating the former with Adam and the latter with Muon. We show that the directional update of Muown is equivalent to a Riemannian step on the normalized directions, while the magnitude of the un-normalized parameterization only modulates the angular step size. This explains the step-size stability of Muown and suggests making the angular step size explicit. The resulting method, AngularMuown, optimizes directly over the normalized directions and uses a schedulable angular multiplier decoupled from the radial magnitude update. AngularMuown improves over Muown and, at the time of writing, a preliminary version is leading the per-optimizer category of the modded nanoGPT speedrunning competition. Further experiments on Qwen2-0.5B, and 1.1B parameter mixture-of-experts models confirm the algorithm scales beyond small models. An implementation of the algorithm is available at https://github.com/fhueb/angular-muown
- Abstract(参考訳): Muon や Muown のような行列対応オプティマイザは、最近、事前学習型トランスフォーマーに強い経験的性能を示している。
特に、Muownは各重み行列を行等級数と非正規化方向変数に分離し、前者はAdamで、後者はMuonで更新する。
正規化方向のリーマンステップとMuownの方向更新が等価であることを示し、非正規化パラメータ化の大きさは角ステップサイズを変調するだけである。
このことは、Muownのステップサイズの安定性を説明し、角のステップサイズを明確にすることを示唆している。
結果のAngularMuownは、正規化方向を直接最適化し、ラジアルグレード更新から切り離されたスケジューリング可能な角乗算器を使用する。
AngularMuownはMuownよりも改善されており、執筆時点では、修正されたナノGPTスピードランニングコンペティションの最適化カテゴリをリードする予備バージョンが提供されている。
Qwen2-0.5B と 1.1B のパラメータ混合モデルに関するさらなる実験は、小さなモデルを超えてアルゴリズムのスケールを確認する。
アルゴリズムの実装はhttps://github.com/fhueb/angular-muownで公開されている。
関連論文リスト
- Distance-Aware Muon: Adaptive Step Scaling for Normalized Optimization [47.817303172845506]
ミューオンと関連する正規化は、ステップスケールの選択から更新方向の選択を分離する。
我々は,Muonチューニングのための3つの補完アルゴリズムを開発し,正規化適応スケーリングパラメータを開発した。
論文 参考訳(メタデータ) (2026-05-18T18:19:26Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - AngularGrad: A New Optimization Technique for Angular Convergence of
Convolutional Neural Networks [0.16492989697868887]
畳み込みニューラルネットワーク(CNN)は、降下勾配(SGD)に基づくタンジェントを用いて訓練される。
本稿では,連続勾配の方向/角度の挙動を考慮した新しいAngularGradを提案する。
提案したAngularGradは、前のイテレーションの勾配角情報に基づいてステップサイズを制御するスコアを生成する。
論文 参考訳(メタデータ) (2021-05-21T08:00:53Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。