論文の概要: Fisher-Geometric Sharpness and the Implicit Bias of SGD toward Flat Minima
- arxiv url: http://arxiv.org/abs/2606.20469v1
- Date: Thu, 18 Jun 2026 16:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.996573
- Title: Fisher-Geometric Sharpness and the Implicit Bias of SGD toward Flat Minima
- Title(参考訳): フィジカル・ジオメトリカル・シャープネスとSGDのフラット・ミニマへのインシシットバイアス
- Authors: Md Sakir Ahmed, Kumaresh Sarmah, Hemen Dutta,
- Abstract要約: 勾配降下(SGD)は、平らなミニマを暗黙的に好んでいる。
滑らかな関数保存型再パラメータ化の下では不変であることが証明される。
MNIST と CIFAR-10 の実験により、SR はユークリッドのシャープネスがそうでない方法で一般化を確実に追跡することを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A widely held intuition in deep learning is that stochastic gradient descent (SGD) implicitly favors flat minima and that flat minima generalize better, but standard Euclidean measures of flatness such as the trace or maximum eigenvalue of the loss Hessian are not invariant under reparametrizations that preserve the network function, which undermines the theoretical foundations of this narrative. In this study we resolve this issue by grounding flatness in the Riemannian geometry of the statistical manifold induced by the Fisher Information Matrix (FIM). We define Riemannian sharpness mathematically and prove that it is invariant under smooth, function-preserving reparametrizations, which directly addresses the critique of Dinh et al. in the paper ``Sharp minima can generalize for deep nets''.We note that this invariance is a property of the true FIM; the diagonal empirical estimator used in practice (and in all experiments below) inherits invariance only approximately, and exact invariance under arbitrary reparametrizations would require structured estimators such as K-FAC. We formalize the gradient noise of mini-batch SGD as having a covariance structure proportional to the FIM, derive the stationary distribution of the resulting stochastic differential equation, and then show that the probability mass is exponentially concentrated at Riemannian-flat minima. A PAC-Bayes generalization bound controlled explicitly by SR formally links this geometric bias to test performance. Our experiments on MNIST and CIFAR-10 confirm that SR reliably tracks generalization in ways that Euclidean sharpness does not, and that its scaling with $η/B$ matches the theoretical predictions. Together these results provide a rigorous, reparametrization-invariant account of why flat minima generalize.
- Abstract(参考訳): 深層学習における一般的な直観は、確率勾配降下(SGD)は平らなミニマを暗黙に好んでおり、平坦なミニマはより良く一般化するが、損失ヘッセンのトレースや最大固有値のような平坦性の標準ユークリッド測度は、ネットワーク関数を保存する再パラメータ化の下で不変ではなく、この物語の理論的基礎を損なう。
本研究では,フィッシャー情報行列 (FIM) によって誘導される統計多様体のリーマン幾何学において平坦性を基底としてこの問題を解決する。
我々はリーマン的シャープネスを数学的に定義し、それが滑らかで関数保存的なパラメータ化の下で不変であることを証明し、論文 '`Sharp minima can generalize for Deep nets' の中でDinh et al の批判を直接扱う。
この不変性は真のFIMの特性であり、実際に使われる対角的経験的推定器(および以下のすべての実験で)は、ほぼ不変性を継承するだけであり、任意の再パラメータ化の下での正確な不変性は、K-FACのような構造化された推定器を必要とする。
我々は、FIMに比例する共分散構造を持つミニバッチSGDの勾配雑音を定式化し、その結果の確率微分方程式の定常分布を導出し、確率質量がリーマン平坦なミニマに指数関数的に集中していることを示す。
SRにより明示的に制御されるPAC-ベイズ一般化は、この幾何学バイアスをテスト性能に正式にリンクする。
MNIST と CIFAR-10 に関する実験により、SR はユークリッドのシャープネスが期待できない方法で一般化を確実に追跡し、η/B$ でのスケーリングが理論的予測と一致することを確認した。
これらの結果は、平坦なミニマが一般化する理由について、厳密で再パラメトリゼーション不変な説明を与える。
関連論文リスト
- Tubular Riemannian Laplace Approximations for Bayesian Neural Networks [0.0]
ラプラス近似はニューラルネットワークにおけるベイズ近似の最も単純かつ実用的な方法の一つである。
近年の研究では、この構造に適応する幾何ガウス近似が提案されている。
本稿では,Tubular Riemannian Laplace (TRL)近似を導入する。
論文 参考訳(メタデータ) (2025-12-30T17:50:55Z) - Intrinsic Bayesian Cramér-Rao Bound with an Application to Covariance Matrix Estimation [49.67011673289242]
本稿では, 推定パラメータが滑らかな多様体内にある推定問題に対して, 新たな性能境界を提案する。
これはパラメータ多様体の幾何学と推定誤差測度の本質的な概念を誘導する。
論文 参考訳(メタデータ) (2023-11-08T15:17:13Z) - Spectrum-Aware Debiasing: A Modern Inference Framework with Applications to Principal Components Regression [1.342834401139078]
本稿では,高次元回帰のための新しい手法であるSpectrumAware Debiasingを紹介する。
我々のアプローチは、構造的、重く、低ランクな構造に関する問題に適用できる。
シミュレーションおよび実データ実験により本手法を実証する。
論文 参考訳(メタデータ) (2023-09-14T15:58:30Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - On the Variance, Admissibility, and Stability of Empirical Risk Minimization [57.63331017830154]
経験的リスク最小化(ERM: Empirical Risk Minimization)は、平均2乗誤差で最小限の最適値が得られる。
比較的軽度な仮定の下では、ERMの準最適性はその大きなバイアスによるものでなければならない。
論文 参考訳(メタデータ) (2023-05-29T15:25:48Z) - The Geometry of Neural Nets' Parameter Spaces Under Reparametrization [35.5848464226014]
我々は、リーマン幾何学の観点から、リパラメトリゼーションの下でのニューラルネットの不変性について研究する。
本稿では,ミニマムの平坦度,最適化,および確率密度について考察する。
論文 参考訳(メタデータ) (2023-02-14T22:48:24Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。