論文の概要: Generalization in Deep Neural Networks: Minimax Rates for Gradient Methods
- arxiv url: http://arxiv.org/abs/2606.06772v1
- Date: Thu, 04 Jun 2026 23:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.47977
- Title: Generalization in Deep Neural Networks: Minimax Rates for Gradient Methods
- Title(参考訳): ディープニューラルネットワークの一般化:グラディエント法におけるミニマックスレート
- Authors: Junyu Zhou, Puyu Wang, Yunwen Lei, Marius Kloft, Yiming Ying,
- Abstract要約: 本稿では,勾配法を用いて学習したディープニューラルネットワーク(DNN)の包括的一般化解析を行う。
我々は,DNNの学習力学と,勾配法を用いて学習したスムーズなアクティベーション関数との間に,初めて重要な関係を樹立した。
我々は、勾配降下 (GD) と勾配降下 (SGD) の過剰集団リスクに対する、初めて知られている最小値最適化率を導出する。
- 参考スコア(独自算出の注目度): 42.41448048632761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the generalization performance of over-parameterized neural networks has become a central topic in deep learning theory. While recent advances, particularly works under the Neural Tangent Kernel (NTK) regime, have shed light on the behavior of shallow architectures, the statistical generalization properties of deep neural networks (DNNs), especially in regression tasks, remain far less understood. In this paper, we make significant progress toward closing this gap by providing a comprehensive generalization analysis of DNNs trained using gradient-based methods. First, we establish, for the first time, a crucial connection between the learning dynamics of a DNN with smooth activation functions trained via gradient-based methods and those of kernel methods, showing that gradient-based methods on over-parameterized DNNs can fully inherit the favorable learning dynamics of their kernel counterparts. Building on this connection and the well-established optimality of kernel methods, we derive the first known minimax-optimal rates for the excess population risk of both gradient descent (GD) and stochastic gradient descent (SGD), under the assumption that network width scales polynomially with the sample size. Our results demonstrate that, with sufficient width, DNNs trained by GD or SGD can achieve generalization performance comparable to kernel-based methods.
- Abstract(参考訳): 過パラメータ化されたニューラルネットワークの一般化性能を理解することは、ディープラーニング理論における中心的なトピックとなっている。
近年の進歩、特にNTK(Neural Tangent Kernel)体制下での研究は、浅いアーキテクチャの振舞いに光を当てているが、特に回帰タスクにおいて、ディープニューラルネットワーク(DNN)の統計的一般化特性は依然として理解されていない。
本稿では,勾配法を用いて訓練したDNNの包括的一般化解析を提供することにより,このギャップを解消する上で大きな進展を示す。
まず,DNNの学習力学と,勾配法を用いて学習したスムーズなアクティベーション関数と,過パラメータDNNの勾配法が,カーネルの学習力学を完全に継承できることを示す。
この接続とカーネル手法の確立された最適性に基づいて、ネットワーク幅がサンプルサイズと多項式的にスケールするという仮定の下で、GD(勾配勾配勾配)と確率勾配勾配(確率勾配勾配)の両方の過剰な集団リスクに対する、既知の最小値最適化率を導出する。
以上の結果から,GD や SGD によって訓練された DNN がカーネルベース手法に匹敵する一般化性能を達成できることが示唆された。
関連論文リスト
- Optimal Rates for Generalization of Gradient Descent Methods with Deep Neural Networks [35.78666449629947]
本稿では,勾配降下 (GD) と勾配降下 (SGD) を用いた深部ReLUネットワークの網羅的解析について述べる。
我々は,深いReLUネットワークを持つGDとSGDの双方に対して,人口過多の最小値の最大値を確立した。
以上の結果から,深いReLUネットワークに対する勾配勾配降下法は,カーネル法と同等に最適な一般化率が得られることが示された。
論文 参考訳(メタデータ) (2026-06-04T23:04:49Z) - Depth-induced NTK: Bridging Over-parameterized Neural Networks and Deep Neural Kernels [13.302913618949468]
階層的特徴変換をカーネル空間にマッピングすることで、オーバーパラメータ化ニューラルネットワークを解釈するための原則的フレームワークを提供する。
ネットワーク深度が無限に近づくとガウス過程に収束するショートカット関連アーキテクチャに基づく深さ誘起NTKカーネルを提案する。
この知見は,ニューラルネットワーク理論の既存の状況を大きく拡張し,深層学習とスケーリング法則の深い理解を提供する。
論文 参考訳(メタデータ) (2025-11-05T10:00:03Z) - Generalization Bound of Gradient Flow through Training Trajectory and Data-dependent Kernel [55.82768375605861]
我々は、カーネル法における古典的ラデマッハ複雑性と整合する勾配流の一般化を確立する。
NTKのような静的カーネルとは異なり、LPKはトレーニング軌跡全体をキャプチャし、データと最適化の両方に適応する。
論文 参考訳(メタデータ) (2025-06-12T23:17:09Z) - From Deep Additive Kernel Learning to Last-Layer Bayesian Neural Networks via Induced Prior Approximation [11.917792144592056]
本稿では,最終層GPの付加構造を組み込んだDep Additive Kernel (DAK) モデルを提案する。
提案手法は,DKLの解釈性と,BNNの計算上の利点を享受する。
実験結果から,提案手法は回帰タスクと分類タスクの両方において最先端のDKL法より優れていることが示された。
論文 参考訳(メタデータ) (2025-02-14T20:14:17Z) - Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。
提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。
我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文 参考訳(メタデータ) (2024-07-10T13:58:57Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Provable Acceleration of Nesterov's Accelerated Gradient Method over Heavy Ball Method in Training Over-Parameterized Neural Networks [12.475834086073734]
1次勾配法はニューラルネットワークのトレーニングに広く用いられている。
近年の研究では、最初のニューラルオーダー法が世界最小収束を達成することができることが証明されている。
論文 参考訳(メタデータ) (2022-08-08T07:13:26Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。