論文の概要: Flatland: The Adventures of Gradient Descent with Large Step Sizes
- arxiv url: http://arxiv.org/abs/2606.06722v1
- Date: Thu, 04 Jun 2026 21:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.451535
- Title: Flatland: The Adventures of Gradient Descent with Large Step Sizes
- Title(参考訳): Flatland: 大きなステップサイズでグラディエントな輝きの冒険
- Authors: Leonardo Galli, Curtis Fox, Wiebke Bartolomaeus, Mark Schmidt, Holger Rauhut,
- Abstract要約: 勾配降下訓練のための「大きな」ステップサイズを統一的に定義する。
トレーニング開始直後から、大きなステップサイズが安定性の端(EoS)で動作していることが示されます。
予想とは対照的に、トレーニングの時期が早すぎると、収束が遅くなり、ネットワークの一般化能力が損なわれる可能性がある。
- 参考スコア(独自算出の注目度): 11.094067941432144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training of neural networks often entails objective functions that are not globally $L$-smooth. For these functions, it is both theoretically and practically difficult to reply to the question: what is the largest possible step size that ensures the convergence of gradient descent (GD)? We address this longstanding open question in deep learning by providing a unifying definition of "large" step sizes that requires only local Lipschitz (or even Hölder) continuity of the gradient. We design first-order adaptive methods that provably yield large step sizes and show that they operate at the edge of stability (EoS) right from the start of the training. In particular, the loss decreases nonmonotonically and the product between the step size and sharpness, i.e., the largest eigenvalue of the Hessian, stays above the EoS threshold of 2 throughout training. Using our method, we are also able to minimize the sharpness all the way down to its global minimum. Contrary to expectation, we find that encountering globally-flat regions too early in the training may both slow down convergence and jeopardize the generalization ability of the network. Exploiting a self-stabilization argument, we allow GD to enter slightly sharper valleys and turn unsuccessful training runs into very successful ones.
- Abstract(参考訳): ニューラルネットワークのトレーニングは、グローバルな$L$-smoothではない客観的関数を必要とすることが多い。
これらの関数に対して、理論上も実際上も答えが難しい:勾配降下(GD)の収束を保証する最も大きなステップサイズは何か?
深層学習においては、局所的なリプシッツ(あるいはヘルダーさえも)の勾配の連続性だけを必要とする「大きな」ステップサイズの統一的な定義を提供することによって、この長年にわたるオープンな問題に対処する。
我々は,大規模化を確実に達成する一階適応手法を設計し,訓練開始時から安定端(EoS)で動作可能であることを示す。
特に、損失は非単調に減少し、ステップサイズとシャープネスの間の積、すなわちヘッセンの最大の固有値は、トレーニングを通して2のEoS閾値を超える。
また,本手法を用いることで,世界最小までシャープさを最小化することができる。
予想とは対照的に、トレーニングの時期が早すぎると、収束が遅くなり、ネットワークの一般化能力が損なわれる可能性がある。
自己安定化の議論を展開すれば、GDは少しシャープな谷に入り、失敗に終わった訓練を成功に導くことができる。
関連論文リスト
- Non-Singularity of the Gradient Descent map for Neural Networks with Piecewise Analytic Activations [53.348574336527854]
重みとバイアスの空間上の関数としてのニューラルネットワークマップについて検討する。
我々は、現実的なニューラルネットワークアーキテクチャの損失ランドスケープにおける勾配降下(GD)マップの非特異性を初めて証明した。
論文 参考訳(メタデータ) (2025-10-28T14:34:33Z) - First-ish Order Methods: Hessian-aware Scalings of Gradient Descent [11.125968799758436]
勾配降下の鍵となる制限は、自然スケーリングの欠如である。
曲率を考慮することで、適応的なヘッセン対応スケーリング手法により、局所的な単位ステップサイズが保証される。
我々は,この手法が標準リプシッツ仮定のかなり弱いバージョンの下でグローバルに収束することを示す。
論文 参考訳(メタデータ) (2025-02-06T01:22:23Z) - Gradient Descent Converges Linearly to Flatter Minima than Gradient Flow in Shallow Linear Networks [0.0]
本研究では,1つの入力と出力を持つディープ2線形ニューラルネットワークの勾配勾配勾配ダイナミクスについて検討する。
また, GD は, たとえ大きなステップサイズであっても, 訓練損失の最小値に比例して直線的に収束することを示した。
論文 参考訳(メタデータ) (2025-01-15T20:43:36Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On Avoiding Local Minima Using Gradient Descent With Large Learning
Rates [48.42061343682201]
我々は、降下(GD)の成功につながるメカニズムの完全な理解は、明らかに大きなステップサイズを使用することの効果を考慮する必要があるかもしれないと論じる。
ステップサイズが大きいGDは、ステップサイズが小さいGDとは異なる軌道を辿り、世界最小値に収束することを示す。
また,ニューラルネットワークにGDを適用した場合,学習速度が小さい場合と大きい場合のトラジェクトリの違いも示す。
論文 参考訳(メタデータ) (2022-05-30T14:35:32Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。