Fugu-MT 論文翻訳(概要): Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization

論文の概要: Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization

arxiv url: http://arxiv.org/abs/2606.16899v1
Date: Mon, 15 Jun 2026 16:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.753148
Title: Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization
Title（参考訳）: ファンタスティック・プレトレーニング・オプティマイザとテーマ発見場所II:ハイパーボール最適化
Authors: Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang,
Abstract要約: Muon のようなマトリックスベースは言語モデルの事前学習を著しく高速化するが、AdamW に対する利得は標準の一定重量減衰を用いると縮小する。この問題に対処するシンプルなラッパーであるHyperballを提案する。 Qwen3スタイルモデルでは、最大1.2Bパラメータで、Muon Hyperballはウェイト崩壊ベースラインよりも20-30%のトークン等価なスピードアップを達成する。
参考スコア（独自算出の注目度）: 67.29294986811314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Matrix based optimizers such as Muon can substantially speed up language model pretraining, but their gains over AdamW are observed to shrink as model size and data scale grow when using standard constant decoupled weight decay. We propose Hyperball, a simple optimizer wrapper that addresses this issue. Given a base optimizer such as Adam or Muon, Hyperball sets the Frobenius norms of weight matrices and their corresponding optimizer updates to fixed constants. On Qwen3 style models up to 1.2B parameters, Muon Hyperball achieves 20--30% token equivalent speedup over weight decay baselines. Hyperball also improves learning rate transfer across widths and depths compared to decoupled weight decay. This method is motivated by prior theory showing that training with weight decay leads to an equilibrium weight norm that only depends on the training hyperparameters. Through this mechanism, the weight decay then decides the angular learning rate, i.e. how fast the direction of the weight matrix changes.
Abstract（参考訳）: Muonのようなマトリックスベースのオプティマイザは、言語モデルの事前訓練を大幅に高速化することができるが、AdamWに対するその利得は、標準の定数デカップリングウェイト崩壊を使用すると、モデルのサイズとデータスケールが大きくなるにつれて縮小する。この問題に対処するシンプルなオプティマイザラッパーであるHyperballを提案する。アダムやムーンのような基底オプティマイザが与えられたとき、ハイパーボールはフロベニウスのウェイト行列のノルムとそれに対応するオプティマイザを固定定数に更新する。 Qwen3スタイルモデルでは、最大1.2Bパラメータで、Muon Hyperballはウェイト崩壊ベースラインよりも20-30%のトークン等価スピードアップを達成する。ハイパーボールはまた、切り離された重みの崩壊よりも幅と深さの学習率の移動を改善する。この方法は、ウェイト崩壊を伴うトレーニングが、トレーニングハイパーパラメータのみに依存する平衡ウェイトノルムに繋がることを示す以前の理論によって動機付けられている。この機構を通じて、重みの減衰は角の学習速度、すなわち重み行列の方向がどれくらいの速さで変化するかを決定する。

論文の概要: Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization

関連論文リスト