論文の概要: Weibull Weight-Scale Parameter Evolution under AdamW Training Dynamics
- arxiv url: http://arxiv.org/abs/2606.19367v1
- Date: Thu, 11 Jun 2026 03:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.399398
- Title: Weibull Weight-Scale Parameter Evolution under AdamW Training Dynamics
- Title(参考訳): AdamWトレーニングダイナミクスによるWeibull重量スケールパラメータの進化
- Authors: Tiexin Ding,
- Abstract要約: 我々は、Weibullの重み付けパラメータ $(t)$ が成長し、オーバーシュートし、AdamWトレーニング中にリラックスする理由を研究する。
飽和に近い、アライメントと崩壊のアプローチバランスは、重量スケールの成長から緩和への移行を説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building on a two-parameter Weibull framework for diagnosing transformer weight distributions, we study why the Weibull weight-scale parameter $λ$ grows, overshoots, and then relaxes during AdamW training. We derive a leading-order three-force decomposition of the squared weight norm from the AdamW update: an alignment force measuring the correlation between weights and the adaptive update direction, an injection force from adaptive step magnitude, and a decay force from decoupled weight decay. On self-trained Pythia-70M models with ground-truth optimizer moments, alignment dominates the rise phase, contributing 88-94% of the absolute force budget across four random seeds and remaining robust to super-weight removal. Near saturation, alignment and decay approach balance, explaining the transition from weight-scale growth to relaxation. These force dynamics directly govern the squared-norm component underlying $λ(t)$; the remaining RMS-to-Weibull reconstruction offset is measurable and decomposes into bridge and integration components, totaling approximately 5-6% in densely sampled regions. To extend the analysis to real models where optimizer moments are unavailable, we introduce a spline displacement method that recovers the alignment force from sparse checkpoints with approximately 92-94% accuracy, about twice the naive two-point baseline. We further observe that the peak value of $λ(t)$ varies with training-data coherence in our experiments, suggesting a data-dependent component of weight-scale growth that we leave to a controlled follow-up study. Code and data are available at https://github.com/tiexinding/NPM-Weibull-public.
- Abstract(参考訳): 変圧器重量分布を診断するための2パラメータWeibullフレームワーク上に構築し、なぜWeibull重量スケールパラメータ$λ$が成長し、オーバーシュートし、AdamWトレーニング中にリラックスするかを検討する。
我々は、AdamW更新から、重みと適応更新方向の相関を計測するアライメント力、適応段差からの注入力、非結合重みの崩壊力から、二乗重みノルムの前方3次分解を導出した。
4つのランダムな種子に対して絶対的な力予算の88-94%を達成し、超軽量除去に頑健なままである。
飽和に近い、アライメントと崩壊のアプローチバランスは、重量スケールの成長から緩和への移行を説明する。
残りの RMS-to-Weibull 再構成オフセットは測定可能であり、ブリッジと積分成分に分解され、密集した領域では合計で約5-6%となる。
最適モーメントが利用できない実モデルに解析を拡張するために,スパースチェックポイントから約92~94%の精度でアライメント力を回復するスプライン変位法を導入する。
さらに,本実験では,最大値のλ(t)$がトレーニングデータのコヒーレンスと異なることが確認された。
コードとデータはhttps://github.com/tiexinding/NPM-Weibull-publicで公開されている。
関連論文リスト
- Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization [67.29294986811314]
Muon のようなマトリックスベースは言語モデルの事前学習を著しく高速化するが、AdamW に対する利得は標準の一定重量減衰を用いると縮小する。
この問題に対処するシンプルなラッパーであるHyperballを提案する。
Qwen3スタイルモデルでは、最大1.2Bパラメータで、Muon Hyperballはウェイト崩壊ベースラインよりも20-30%のトークン等価なスピードアップを達成する。
論文 参考訳(メタデータ) (2026-06-15T16:09:02Z) - How Neural Reward Models Learn Features for Policy Optimization: A Single-Index Analysis [53.063298916923976]
r*(x) = *(langle *, xrangle)$ と $x sim N(0, I_d)$ でガウスの単一インデックスモデルでフィードバックを研究する。
まず、報酬重み付きサンプルから隠れた方向を*$で学習し、次に重み付きリッジ回帰により読み出し層に適合する2段階のニューラル報酬モデルを分析する。
論文 参考訳(メタデータ) (2026-05-23T22:00:38Z) - Normalized Architectures are Natively 4-Bit [49.13186675123547]
重みと隠れ表現を単位超球面に制限するアーキテクチャであるnGPTは、本質的に低精度算術よりも堅牢である。
本手法は,最大3B/30Bパラメータの1.2B密度モデルとハイブリッド(Mamba-Transformer)MoEモデルの両方で検証する。
論文 参考訳(メタデータ) (2026-05-07T11:54:07Z) - Decoupled Orthogonal Dynamics: Regularization for Deep Network Optimizers [7.170491058218013]
我々はマグニチュードと方向が異なる役割を担い、動的に分離されるべきであると主張している。
SGDスタイルの更新は1次元ノルム制御を処理し、Adamの適応的プレコンディショニングは接部分空間に限定される。
ビジョンと言語タスクの実験は、AdamOがAdamWに対する一般化と安定性を改善し、追加の複雑な制約を導入することなく実現していることを示している。
論文 参考訳(メタデータ) (2026-02-04T23:41:51Z) - ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - Correction of Decoupled Weight Decay [2.538209532048867]
我々は、分離重み崩壊$propto 2$は、更新が定常状態から独立になるという単純な仮定に基づいて、安定した重みノルムをもたらすと主張している。
分離したウェイト崩壊$propto 2$は、安定なウェイトと勾配ノルムをもたらし、トレーニングダイナミクスをよりよく制御し、モデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-12-09T03:52:54Z) - AdamHD: Decoupled Huber Decay Regularization for Language Model Pre-Training [0.2578242050187029]
AdamHuberDecayはAdamWのドロップイン代替品で、$ell$ペナルティを分離したスムーズなHuberレギュレータで置き換える。
GPT-2 と GPT-3 の事前学習実験により,AdamHuberDecay は壁面時間で 10-15% の速度で収束することが示された。
論文 参考訳(メタデータ) (2025-11-18T18:08:20Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Generalized Balancing Weights via Deep Neural Networks [0.0]
観測データから因果効果を推定することは、多くの領域において中心的な問題である。
離散的および連続的な介入の任意の混合による因果効果を推定するために、一般化バランスウェイト、ニューラルバランスウェイト(NBW)を提案する。
論文 参考訳(メタデータ) (2022-11-14T17:03:56Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。