論文の概要: Adam Converges in Nonsmooth Nonconvex Optimization
- arxiv url: http://arxiv.org/abs/2606.22326v1
- Date: Sun, 21 Jun 2026 04:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 19:06:22.256173
- Title: Adam Converges in Nonsmooth Nonconvex Optimization
- Title(参考訳): 非滑らかな非凸最適化におけるアダム収束
- Authors: Zijian Liu,
- Abstract要約: アダムは広く実装され、影響力のある近代バイアスの1つである。
我々は,Adam の速度に対する最初の有限時間解析を iTe ステップで行い,さらなる修正を加えない。
- 参考スコア(独自算出の注目度): 3.8357180714081327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam is one of the most widely implemented and influential modern optimizers. Why is it effective across different optimization problems in practice? This question arguably lies at the center of the optimization community over the last decade and has motivated a substantial body of work aimed at understanding its convergence behavior. However, existing studies have mainly focused on the convergence rate of Adam in smooth nonconvex optimization, which unfortunately does not adequately capture practical settings, since many real-world problems are nonsmooth, such as those arising in training neural networks. Thus, these studies cannot fully explain the popularity and empirical success of Adam. Recently, an insightful and powerful framework called Online-to-Nonconvex Conversion has opened a new way to analyze Adam for nonsmooth nonconvex optimization. Unfortunately, prior works along this line share two common limitations. First, all of them ignore the important bias-correction term in the original Adam algorithm. Second and more importantly, many of them require extra operations that are not used in Adam, such as a clipping step. Therefore, the convergence guarantee for the original Adam method still remains unclear. In this work, we present the first finite-time analysis for the classical form of Adam, i.e., with the bias-correction step and without further algorithmic modifications, and prove that a randomly scaled learning rate ensures a convergence rate of $1/T^{\frac{2}{13}}$ for nonsmooth nonconvex optimization. Moreover, our result provably applies to the modern heavy-tailed noise regime, which is closer to practice. Interestingly, our theory is established under the parameter choice $β_1=β_2$, aligning with the recent empirical studies.
- Abstract(参考訳): アダムは最も広く実装され、影響力のある現代オプティマイザの1人である。
なぜ異なる最適化問題に対して効果があるのか?
この質問は、おそらく過去10年間、最適化コミュニティの中心にあり、その収束行動を理解することを目的とした、かなりの作業の動機となっている。
しかし、既存の研究は主に、スムーズな非凸最適化におけるアダムの収束率に焦点を合わせており、残念なことに現実の問題は、ニューラルネットワークのトレーニングで発生するような非滑らかな問題が多いため、実用的な設定を適切に捉えていない。
したがって、これらの研究はアダムの人気と経験的成功を十分に説明できない。
最近、Online-to-Nonconvex Conversionと呼ばれる洞察に富んだ強力なフレームワークが、非滑らかな非凸最適化のためにAdamを分析する新しい方法を公開した。
残念なことに、この路線の先行工事には2つの共通する制限がある。
まず、これらはすべて元のAdamアルゴリズムの重要なバイアス補正項を無視している。
2番目に重要なのは、クリップングステップなど、Adamで使用されていない余分な操作を必要とすることです。
したがって、元のアダム法に対する収束保証はいまだに不明である。
本研究では,Adam の古典形式に対する最初の有限時間解析,すなわちバイアス補正ステップを伴い,さらにアルゴリズム的な修正を加えることなく,非滑らかな非凸最適化のための1/T^{\frac{2}{13}}$の収束速度をランダムにスケールした学習速度で保証することを示す。
さらに,本研究の成果は,実践に近い現代ヘビーテールノイズレジームにも確実に当てはまる。
興味深いことに、我々の理論は最近の経験的研究と一致するパラメータ選択$β_1=β_2$の下で確立されている。
関連論文リスト
- Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers [57.049014152026864]
ニューラルネットワークのトレーニングでは、適応モーメント推定(Adam)は通常、高速に収束するが、最適以下の一般化性能を示す。
平らなミニマを見つける能力を高めるため、逆アダム(InvAdam)という新しい変種を提案する。
InvAdamは1階と2階のモーメントの要素ワイド乗算を計算し、Adamは2つのモーメントの要素ワイド除算を計算する。
論文 参考訳(メタデータ) (2026-03-07T09:15:30Z) - Closing the Gap Between the Upper Bound and the Lower Bound of Adam's
Iteration Complexity [51.96093077151991]
我々はAdamの新しい収束保証を導出し、$L$-smooth条件と有界雑音分散仮定のみを導出する。
本証明は,運動量と適応学習率の絡み合いを扱うために,新しい手法を利用する。
論文 参考訳(メタデータ) (2023-10-27T09:16:58Z) - UAdam: Unified Adam-Type Algorithmic Framework for Non-Convex Stochastic
Optimization [20.399244578926474]
我々は,Adam型アルゴリズム(UAdam)の統一フレームワークを導入する。
これは、NAdamBound、AdaFom、Adanといった2階のモーメントの一般的な形式を備えている。
UAdam が定常点の近傍に収束して $mathcalO (1/T)$ となることを示す。
論文 参考訳(メタデータ) (2023-05-09T13:07:03Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - On the One-sided Convergence of Adam-type Algorithms in Non-convex
Non-concave Min-max Optimization [43.504548777955854]
本稿では,一方のMVI条件下での分極最適化問題において,アダム型アルゴリズムが一方の1次定常点に収束することを示す。
また,この片側MVI条件が標準GANに対して満たされていることを実証的に検証した。
論文 参考訳(メタデータ) (2021-09-29T06:38:39Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
論文 参考訳(メタデータ) (2020-11-04T06:39:44Z) - A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。
最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-21T19:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。