論文の概要: Edge Flow: A Tractable and Predictive Continuous-Time Model for Gradient Descent at the Edge of Stability
- arxiv url: http://arxiv.org/abs/2606.18080v1
- Date: Tue, 16 Jun 2026 15:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.524947
- Title: Edge Flow: A Tractable and Predictive Continuous-Time Model for Gradient Descent at the Edge of Stability
- Title(参考訳): Edge Flow: 安定の端におけるグラディエントDescentのためのトラクタブルで予測可能な連続時間モデル
- Authors: Pierre Marion,
- Abstract要約: 安定の端における勾配降下ダイナミクス(EoS)のトラクタブルで忠実で予測的なモデルを提案する。
We show that Edge Flow track the dynamics of gradient descent least to faithfully as previously proposed continuous-time EoS model。
- 参考スコア(独自算出の注目度): 11.598128347617957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient descent in deep learning may operate at the edge of stability (EoS), a regime in which the largest eigenvalue of the loss Hessian hovers near the stability threshold $2/η$, where $η$ is the learning rate. Classical analysis tools such as gradient flow and the descent lemma do not apply here, motivating the search for a continuous-time model valid at EoS. We propose Edge Flow, a system of three coupled ordinary differential equations that provides a tractable, faithful, and predictive model of gradient descent dynamics at EoS. Edge Flow decomposes the dynamics into a center, an oscillation direction, and an oscillation magnitude. The center follows a modified gradient flow on a symmetrized loss; the direction tracks a top eigenvector of the Hessian via Rayleigh quotient dynamics; and the magnitude grows or decays exponentially depending on whether the sharpness exceeds or falls below the threshold $2/η$. Crucially, sharpness stabilization emerges from the coupled dynamics via a self-stabilization feedback loop. Discretizing Edge Flow only requires two gradient evaluations and one Hessian--vector product at each iteration. We demonstrate empirically that Edge Flow tracks the dynamics of gradient descent at least as faithfully as previously proposed continuous-time EoS models, while in addition resolving the oscillation of the sharpness at the onset of EoS, and that it provides a principled framework for understanding and mitigating instabilities in this regime.
- Abstract(参考訳): 深層学習におけるグラディエント降下は、Hessianの最大の固有値が安定性閾値2/η$に近づき、$η$が学習率である状態(EoS)で作用する。
勾配流や降下補題のような古典的な解析ツールはここでは適用されず、EoSで有効な連続時間モデルの探索を動機付けている。
本研究では,EoS における勾配降下ダイナミクスの,トラクタブルで忠実で予測的なモデルを提供する,3つの結合常微分方程式のシステムである Edge Flow を提案する。
エッジフローは、ダイナミクスを中心、振動方向、振動の大きさに分解する。
中心は対称化損失上の変化した勾配の流れを辿り、方向はレイリー商力学を通してヘッセンの頂点固有ベクトルを追跡し、その大きさは鋭さが閾値2/η$を超えるかで指数関数的に大きくなるか崩壊する。
重要なことに、シャープネス安定化は自己安定化フィードバックループを介して結合されたダイナミクスから生じる。
エッジフローの離散化には、2つの勾配評価と1つの Hessian--vector 製品しか必要としない。
実験により,Edge Flowは従来提案されていた連続時間EoSモデルと同じくらいの勾配降下のダイナミクスを追従すると同時に,EoSの開始時のシャープネスの振動を解消し,このシステムにおける不安定性を理解し緩和するための原則的枠組みを提供する。
関連論文リスト
- A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability [3.4773470589069473]
我々は,安定性の端に勾配降下を行う分岐理論の枠組みを開発する。
安定なEoSトレーニングは、通常方向のフリップ分岐によって生じることを示す。
論文 参考訳(メタデータ) (2026-06-14T02:39:54Z) - Gradient descent at the Edge of Stability: free energy model and kinetic description of the two-layer network [0.0]
安定状態のエッジにおける勾配降下のダイナミクスについて検討する。
平均軌道の進化を追跡する連続時間有効モデルを提案する。
この方程式は、マクロ自由エネルギーのワッサーシュタイン2勾配流と解釈できる。
論文 参考訳(メタデータ) (2026-06-03T18:11:33Z) - A Rod Flow Model for Adam at the Edge of Stability [9.11122093402205]
パラメータと第一モーメント $(w, m) のジョイント位相空間で作業することで、ロッドフローをアダムに拡張する。
また, 重い球運動量に対するロッドフローの開発も行っている。
8ドルでは、代表的機械学習アーキテクチャ上でのロッドフローを実証的に評価する。
論文 参考訳(メタデータ) (2026-05-07T18:21:59Z) - Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks [74.46751089984072]
深い線形ネットワークにおける勾配降下(SGD)ノイズの理解は不十分である。
本研究では,サドル・アンド・サドル体制におけるDLNの訓練におけるSGDの動態について検討した。
以上の結果から,SGDノイズは特徴学習の進行に関する情報を符号化するが,サドル・アンド・サドル・ダイナミクスを根本的に変えるものではないことが判明した。
論文 参考訳(メタデータ) (2026-04-07T18:43:08Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of
Stability [40.17821914923602]
安定性の端における勾配降下は、制約$S(theta) le 2/eta$ の下で、投影勾配降下 (PGD) に暗黙的に従うことを示す。
本分析は, PGD軌道からの損失, 鋭さ, 偏差を, トレーニングを通して正確に予測する。
論文 参考訳(メタデータ) (2022-09-30T17:15:12Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。