論文の概要: Open Problem: Is AdamW Effective Under Heavy-Tailed Noise?
- arxiv url: http://arxiv.org/abs/2606.23676v1
- Date: Mon, 22 Jun 2026 17:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:12:41.691942
- Title: Open Problem: Is AdamW Effective Under Heavy-Tailed Noise?
- Title(参考訳): オープニング問題:AdamWは重音下で有効か?
- Authors: Dingzhi Yu, Hongyi Tao, Yuanyu Wan, Luo Luo, Lijun Zhang,
- Abstract要約: AdamWは、大規模な言語モデルを訓練するデファクト理論である。
最近の研究は、ライオンやムオンのような符号に基づく勾配が急激な重み付け率を達成することを示している。
AdamWは、同じ重み付き仮定の下で収束できるのか、それとも、その第二モーメントアキュムレータが真の障害を生み出すのか?
- 参考スコア(独自算出の注目度): 43.39716211464324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AdamW is the de facto optimizer for training large language models (LLMs), yet the theory behind it still lives mostly in finite-variance regimes. This is increasingly unsatisfying, as empirical evidence indicates that stochastic gradient noise in LLM pretraining is typically heavy-tailed. Recent work shows that sign-based optimizers such as Lion and Muon achieve sharp heavy-tailed rates, and that AdaGrad can also converge under heavy-tailed noise. However, no rigorous convergence theory for AdamW has yet been established in this regime. Can AdamW converge under the same heavy-tailed assumptions, or does its second-moment accumulator create a genuine obstruction? We formulate this as an open problem, prove a positive weighted-metric benchmark, and give a corridor lower-bound mechanism showing how denominator memory can hide large gradients.
- Abstract(参考訳): AdamWは大規模言語モデル(LLM)を訓練するためのデファクトオプティマイザである。
LLM前訓練における確率的勾配ノイズは典型的には重く、これはますます不満足になっている。
最近の研究は、LionやMuonのような符号ベースのオプティマイザがシャープなヘビーテールレートを実現し、AdaGradもヘビーテールノイズの下で収束可能であることを示している。
しかし、AdamW に対する厳密な収束理論はまだ確立されていない。
AdamWは、同じ重み付き仮定の下で収束できるのか、それとも、その第二モーメントアキュムレータが真の障害を生み出すのか?
我々はこれをオープンな問題として定式化し、正の重み付きベンチマークを証明し、デノミネータメモリが大きな勾配を隠蔽する方法を示す廊下下界機構を与える。
関連論文リスト
- Can Muon Fine-tune Adam-Pretrained Models? [0.5735035463793009]
ほとんどのオープンモデルはAdamで事前訓練されており、微調整のためにミュオンに鼻で切り替えると、ミスマッチによって性能が劣化する。
我々は、ミスマッチが事前訓練された知識を妨害し、この破壊が更新強度とともにスケールする証拠を提供する。
LoRAは、言語やビジョンタスク全体にわたって、完全な微調整の下で観察されるAdamとMuonのパフォーマンスギャップを減らします。
論文 参考訳(メタデータ) (2026-05-11T12:34:20Z) - Conda: Column-Normalized Adam for Training Large Language Models Faster [70.66067959375748]
Column-Normalized Adam (Conda)は、大規模言語モデル(LLM)に対する新しいアプローチである。
Condaはサブスペースに更新を投影し、投影された勾配に基づいてカラムワイズ第2モーメント正規化を適用する。
LLaMAとGPT-2シリーズの実験では、コンダはトレーニング前のAdamW、Muon、その他のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-29T02:58:19Z) - Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed [83.8485684139678]
AdaGradやAdamのような適応的なステップサイズを持つ手法は、現代のディープラーニングモデルのトレーニングに不可欠である。
AdaGrad/Adam法はノイズが重く、高い確率収束性を有することを示す。
論文 参考訳(メタデータ) (2024-06-06T18:49:10Z) - On Convergence of Adam for Stochastic Optimization under Relaxed Assumptions [4.189643331553922]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。