論文の概要: Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization
- arxiv url: http://arxiv.org/abs/2606.16899v1
- Date: Mon, 15 Jun 2026 16:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.753148
- Title: Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization
- Title(参考訳): ファンタスティック・プレトレーニング・オプティマイザとテーマ発見場所II:ハイパーボール最適化
- Authors: Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang,
- Abstract要約: Muon のようなマトリックスベースは言語モデルの事前学習を著しく高速化するが、AdamW に対する利得は標準の一定重量減衰を用いると縮小する。
この問題に対処するシンプルなラッパーであるHyperballを提案する。
Qwen3スタイルモデルでは、最大1.2Bパラメータで、Muon Hyperballはウェイト崩壊ベースラインよりも20-30%のトークン等価なスピードアップを達成する。
- 参考スコア(独自算出の注目度): 67.29294986811314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matrix based optimizers such as Muon can substantially speed up language model pretraining, but their gains over AdamW are observed to shrink as model size and data scale grow when using standard constant decoupled weight decay. We propose Hyperball, a simple optimizer wrapper that addresses this issue. Given a base optimizer such as Adam or Muon, Hyperball sets the Frobenius norms of weight matrices and their corresponding optimizer updates to fixed constants. On Qwen3 style models up to 1.2B parameters, Muon Hyperball achieves 20--30% token equivalent speedup over weight decay baselines. Hyperball also improves learning rate transfer across widths and depths compared to decoupled weight decay. This method is motivated by prior theory showing that training with weight decay leads to an equilibrium weight norm that only depends on the training hyperparameters. Through this mechanism, the weight decay then decides the angular learning rate, i.e. how fast the direction of the weight matrix changes.
- Abstract(参考訳): Muonのようなマトリックスベースのオプティマイザは、言語モデルの事前訓練を大幅に高速化することができるが、AdamWに対するその利得は、標準の定数デカップリングウェイト崩壊を使用すると、モデルのサイズとデータスケールが大きくなるにつれて縮小する。
この問題に対処するシンプルなオプティマイザラッパーであるHyperballを提案する。
アダムやムーンのような基底オプティマイザが与えられたとき、ハイパーボールはフロベニウスのウェイト行列のノルムとそれに対応するオプティマイザを固定定数に更新する。
Qwen3スタイルモデルでは、最大1.2Bパラメータで、Muon Hyperballはウェイト崩壊ベースラインよりも20-30%のトークン等価スピードアップを達成する。
ハイパーボールはまた、切り離された重みの崩壊よりも幅と深さの学習率の移動を改善する。
この方法は、ウェイト崩壊を伴うトレーニングが、トレーニングハイパーパラメータのみに依存する平衡ウェイトノルムに繋がることを示す以前の理論によって動機付けられている。
この機構を通じて、重みの減衰は角の学習速度、すなわち重み行列の方向がどれくらいの速さで変化するかを決定する。
関連論文リスト
- GQA-μP: The maximal parameterization update for grouped query attention [64.99972873396649]
グループクエリアテンション(GQA)のためのPスケールの導出方法を示す。
また,GQA繰り返しハイパーパラメータ間での学習速度の伝達を示すことによって,理論的導出の有効性を示す。
論文 参考訳(メタデータ) (2026-05-14T18:03:16Z) - Rethinking Language Model Scaling under Transferable Hypersphere Optimization [67.38433364607897]
モデル幅、深さ、トレーニングトークン、エキスパート・オブ・エキスパート(MoE)間で最適な学習率を転送する最初のフレームワークであるHyperPを紹介します。
単一のベースレートでHyperPの計算予算をまたいだデータ転送を調整し、強力な Muon ベースラインを 6times1021$ FLOPs で1.58 タイムで達成した。
また、超球面制約から派生したMoEゲーティング機構であるSqrtGateを提案し、MoEの粒度にわたって出力RMSを保存する。
論文 参考訳(メタデータ) (2026-03-30T17:51:47Z) - ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Dion: Distributed Orthonormalized Updates [27.66769374729482]
Dion(Distributed Orthonormalization)はスケーラブルで効率的な更新ルールである。
ニュートン=シュルツの繰り返しをモーメントバッファー上のアモータイズされたパワーの繰り返しに置き換える。
エラーフィードバックを伴うランク制限パラメータにより、品質と大幅なコスト削減のバランスをとる低ランクな更新が可能になる。
論文 参考訳(メタデータ) (2025-04-07T17:49:37Z) - How to set AdamW's weight decay as you scale model and dataset size [29.980824873382833]
我々はAdamWが学んだ重みを最近の更新の指数移動平均(EMA)と解釈できることを示した。
これは、AdamWにおける重量減衰の設定方法と、重量減衰をモデルとデータセットサイズでスケールする方法に関する重要な洞察を与える。
論文 参考訳(メタデータ) (2024-05-22T14:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。