論文の概要: Optimal Rates for Generalization of Gradient Descent Methods with Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2606.06764v1
- Date: Thu, 04 Jun 2026 23:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.476754
- Title: Optimal Rates for Generalization of Gradient Descent Methods with Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークを用いた勾配Descent法の一般化のための最適速度
- Authors: Junyu Zhou, Puyu Wang, Yunwen Lei, Yiming Ying, Ding-Xuan Zhou,
- Abstract要約: 本稿では,勾配降下 (GD) と勾配降下 (SGD) を用いた深部ReLUネットワークの網羅的解析について述べる。
我々は,深いReLUネットワークを持つGDとSGDの双方に対して,人口過多の最小値の最大値を確立した。
以上の結果から,深いReLUネットワークに対する勾配勾配降下法は,カーネル法と同等に最適な一般化率が得られることが示された。
- 参考スコア(独自算出の注目度): 35.78666449629947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress has been made in understanding the statistical generalization performance of gradient descent methods for overparameterized neural networks within the neural tangent kernel (NTK) regime. However, most of the existing work on regression problems is limited to shallow network architectures, leaving a notable gap in the theory of deep neural networks. This paper addresses this gap by presenting a comprehensive generalization analysis for deep ReLU networks trained using gradient descent (GD) and stochastic gradient descent (SGD). Specifically, we establish the first known minimax-optimal rates of excess population risk for both GD and SGD with deep ReLU networks, under the assumption that the network width scales polynomially with respect to the network depth and training sample size. Our results demonstrate that with sufficient width, gradient descent methods for deep ReLU networks can achieve optimal generalization rates on par with kernel methods.
- Abstract(参考訳): 近年,ニューラル・タンジェント・カーネル(NTK)体制における過パラメータ化ニューラルネットワークの勾配降下法の統計的一般化性能の解明が進んでいる。
しかしながら、回帰問題に関する既存の研究のほとんどは浅いネットワークアーキテクチャに限られており、ディープニューラルネットワークの理論に顕著なギャップを残している。
本稿では、勾配勾配勾配(GD)と確率勾配勾配(SGD)を用いて訓練された深部ReLUネットワークに対する包括的一般化解析により、このギャップに対処する。
具体的には,ネットワーク幅がネットワーク深度とトレーニングサンプルサイズに対して多項式的にスケールするという仮定の下で,GDとSGDの双方に対して,人口リスクの最小値の最小値を求める。
以上の結果から,深いReLUネットワークに対する勾配勾配降下法は,カーネル法と同等に最適な一般化率が得られることが示された。
関連論文リスト
- Generalization in Deep Neural Networks: Minimax Rates for Gradient Methods [42.41448048632761]
本稿では,勾配法を用いて学習したディープニューラルネットワーク(DNN)の包括的一般化解析を行う。
我々は,DNNの学習力学と,勾配法を用いて学習したスムーズなアクティベーション関数との間に,初めて重要な関係を樹立した。
我々は、勾配降下 (GD) と勾配降下 (SGD) の過剰集団リスクに対する、初めて知られている最小値最適化率を導出する。
論文 参考訳(メタデータ) (2026-06-04T23:31:52Z) - Regularized Gradient Clipping Provably Trains Wide and Deep Neural Networks [9.323581269218504]
本稿では,2乗損失下での深部ニューラルネットワークの損失面の大域的最小値に収束することが証明された,勾配クリッピングアルゴリズムの新たな正規化形式を提案する。
また、理論的に確立した$delta-$GClipアルゴリズムが最先端のディープラーニングと競合するという実証的な証拠も提示する。
論文 参考訳(メタデータ) (2024-04-12T17:37:42Z) - Optimization dependent generalization bound for ReLU networks based on
sensitivity in the tangent bundle [0.0]
本稿では,フィードフォワードReLUネットワークの一般化誤差に基づいたPAC型を提案する。
得られた境界はネットワークの深さに明示的に依存しない。
論文 参考訳(メタデータ) (2023-10-26T13:14:13Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Backward Gradient Normalization in Deep Neural Networks [68.8204255655161]
ニューラルネットワークトレーニングにおける勾配正規化のための新しい手法を提案する。
勾配は、ネットワークアーキテクチャ内の特定の点で導入された正規化レイヤを使用して、後方通過中に再スケールされる。
非常に深いニューラルネットワークを用いたテストの結果、新しい手法が勾配ノルムを効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2021-06-17T13:24:43Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable
Optimization Via Overparameterization From Depth [19.866928507243617]
勾配降下(SGD)を伴う深層ニューラルネットワークのトレーニングは、現実世界の風景でのトレーニング損失をゼロにすることが多い。
我々は,アラーがグローバルであるという意味で優れたトレーニングを享受する,無限大深部残差ネットワークの新たな限界を提案する。
論文 参考訳(メタデータ) (2020-03-11T20:14:47Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。