論文の概要: Convergence of Gradient Descent for General Neural Network Architectures Beyond the NTK Regime
- arxiv url: http://arxiv.org/abs/2606.23364v1
- Date: Mon, 22 Jun 2026 14:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 19:27:54.178431
- Title: Convergence of Gradient Descent for General Neural Network Architectures Beyond the NTK Regime
- Title(参考訳): NTKレジームを超えた一般ニューラルネットワークアーキテクチャにおけるグラディエントDescentの収束性
- Authors: Yuqing Wang,
- Abstract要約: トレーニングダイナミクスはニューラルネットワークを理解する上で中心的な存在だ。
本稿では,ニューラルネットワークアーキテクチャの幅広いファミリ下での勾配降下ダイナミクス解析のための収束フレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.053364183688874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training dynamics is central to understanding neural networks, yet its theoretical analysis remains difficult even for simple architectures and becomes substantially more challenging for general modern architectures. In this paper, we propose a convergence framework for analyzing gradient descent (GD) dynamics under a broad family of neural network architectures and datasets beyond the neural tangent kernel (NTK) regime. The framework is formulated at the level of network blocks and covers architectures including pre-normalized multi-layer transformers. More precisely, under mild assumptions, we prove that for almost all initializations, GD with regular learning rates converges to the neighbourhood of a stationary point. This is mainly proved by establishing an iterate-dependent PL-type inequality through analyticity and measure-zero arguments, and by proving Lipschitz smoothness along the GD trajectory through polynomial generalized smoothness and a local relaxed dissipative condition. We further interpret the theorem under Xavier initialization and practical architectural scaling, showing that the learning rate scale depends on the depth and effective bottleneck dimensions rather than the largest width. Finally, we derive structural nondegeneracy implications for residual connections and function composition, and provide a generic characterization of global minimizers within our framework.
- Abstract(参考訳): 力学のトレーニングはニューラルネットワークを理解する上で中心的であるが、その理論解析は単純なアーキテクチャでも難しいままであり、一般的なモダンアーキテクチャではかなり難しいものとなっている。
本稿では,ニューラルネットワークアーキテクチャとデータセットの幅広いファミリ下での勾配降下(GD)ダイナミクス解析のための収束フレームワークを提案する。
このフレームワークはネットワークブロックのレベルで定式化され、プリ正規化された多層トランスを含むアーキテクチャをカバーする。
より正確には、穏やかな仮定の下では、ほとんどすべての初期化において、正規学習率のGDが定常点の近傍に収束することが証明される。
これは主に、解析性と測度ゼロの議論を通じて反復依存PL型不等式を確立し、多項式一般化された滑らかさと局所緩和散逸条件を通じてGD軌道に沿ったリプシッツ滑らか性を証明することによって証明される。
さらに、Xavierの初期化と実践的なアーキテクチャスケーリングの下で定理を解釈し、学習速度スケールは最大幅ではなく、深さと効果的なボトルネック次元に依存することを示した。
最後に,残差接続と関数構成に対する構造的非縮退性の影響を導出し,フレームワーク内のグローバル・ミニマライザの汎用的特徴付けを行う。
関連論文リスト
- Compositional Sparsity as an Inductive Bias for Neural Architecture Design [35.06894725394093]
我々は、ディープニューラルネットワークが次元の呪いを克服できる構造的先行性を特定する。
本稿では,階層的な構成によって抽象化が生じる解釈可能なパイプラインを提案する。
現実世界のデータセットの幅広いスイートの中で、HNNは、はるかに少ないパラメータを使用しながら、常に密なベースラインにマッチまたは性能を向上する。
論文 参考訳(メタデータ) (2026-05-14T12:26:50Z) - Every Feedforward Neural Network Definable in an o-Minimal Structure Has Finite Sample Complexity [15.786915433105868]
フィードフォワードニューラルネットワークの幅広いクラスは、PACモデルで学習する(有限サンプルの複雑さを持つ)ことを示す。
その結果, 有限サンプルPAC学習能力は, 微分器ではなく, ベースラインとして再構成された。
論文 参考訳(メタデータ) (2026-05-08T01:26:25Z) - Mathematical Foundations of Neural Tangents and Infinite-Width Networks [0.0]
我々はTangent Neural Kernel(NTK)による無限幅状態におけるニューラルネットワークの数学的基礎について検討する。
本研究では,NTK-Eigenvalue-Controlled Residual Network (NTK-ECRN)を提案する。
合成およびベンチマークデータセットによる実験結果は、予測されたカーネルの挙動を検証し、トレーニング安定性と一般化の改善を実証する。
論文 参考訳(メタデータ) (2025-12-09T05:41:40Z) - The Neural Differential Manifold: An Architecture with Explicit Geometric Structure [8.201374511929538]
本稿では,その基本設計に幾何学的構造を明示的に組み込んだニューラルネットワークアーキテクチャであるニューラル微分マニフォールド(NDM)を紹介する。
我々は、より効率的な最適化の可能性、継続学習の強化、科学的発見と制御可能な生成モデルへの応用など、このアプローチの理論的利点を分析する。
論文 参考訳(メタデータ) (2025-10-29T02:24:27Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Local Propagation in Constraint-based Neural Network [77.37829055999238]
ニューラルネットワークアーキテクチャの制約に基づく表現について検討する。
本稿では,いわゆるアーキテクチャ制約を満たすのに適した簡単な最適化手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T16:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。