論文の概要: Global Convergence of Gradient Descent for Score Matching in Gaussian Mixtures via Reverse Fisher Divergence
- arxiv url: http://arxiv.org/abs/2606.19876v1
- Date: Thu, 18 Jun 2026 07:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.700945
- Title: Global Convergence of Gradient Descent for Score Matching in Gaussian Mixtures via Reverse Fisher Divergence
- Title(参考訳): 逆水深変化によるガウス混合系のスコアマッチングにおける勾配線量の大域的収束
- Authors: Alexander Tyurin,
- Abstract要約: そこで本研究では,学生分布に対する期待値の逆のフィッシャー発散(Fisher divergence)について検討する。
我々は、目標平均に対して$widetilde(1)$-separationの仮定の下で、大域収束保証を証明した。
我々はリアプノフに基づく勾配勾配勾配の動的解析を頼りにしており、逆のフィッシャー発散は前方のフィッシャー発散よりもはるかに良い最適化環境を持つことが示されている。
- 参考スコア(独自算出の注目度): 67.12978375116599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The score matching problem is a central training objective in modern generative modeling, diffusion models, fitting unnormalized statistical models, and inverse problems. A standard approach is to minimize the forward Fisher divergence, where the expectation is taken with respect to the teacher distribution. However, recent results show that even in simple Gaussian mixture model settings, this objective can lead to undesirable and initialization-dependent convergence behavior. In this paper, we study an alternative objective: the reverse Fisher divergence, where the expectation is taken with respect to the student distribution. We analyze gradient descent (GD) for fitting Gaussian mixture models and show that this change in the objective leads to significantly better optimization properties. First, when the teacher distribution is a single Gaussian and the student is a Gaussian mixture model with fixed weights and identity covariances, we prove the global convergence of GD from arbitrary initializations. Second, we extend the analysis to the case where the teacher is also a Gaussian mixture model and prove global convergence guarantees under a global random initialization scheme and a $\widetildeΩ(1)$-separation assumption on the target means. In particular, with high probability, each student component converges near its closest teacher component, and we provide conditions under which the student distribution converges in total variation distance. Our proofs rely on a new Lyapunov-based analysis of the gradient descent dynamics, showing that the reverse Fisher divergence has a much more favorable optimization landscape than the forward Fisher divergence.
- Abstract(参考訳): スコアマッチング問題は、現代の生成モデル、拡散モデル、正規化されていない統計モデル、逆問題における中心的な訓練目標である。
標準的なアプローチは、教師の分布に関して期待される、フォワードフィッシャーの分岐を最小限にすることである。
しかし、最近の研究では、単純なガウス混合モデル設定においても、この目的は望ましくない初期化依存収束挙動をもたらすことが示されている。
そこで,本研究では,学生の分布に対する期待値の逆のフィッシャー発散という,別の目的について検討する。
ガウス混合モデルに適用するための勾配勾配勾配(GD)を解析し、この目的の変化が最適化特性を著しく向上させることを示す。
まず、教師分布が1つのガウス多様体であり、学生が固定重みと同一性共分散を持つガウス混合モデルであるとき、任意の初期化からGDの大域収束性を証明する。
第2に,教師がガウス混合モデルであり,大域的ランダム初期化スキームと対象手段上の$\widetildeΩ(1)$-セパレーション仮定の下で大域収束を保証することを証明した場合には,解析を拡張する。
特に、高い確率で、各生徒成分が最も近い教師成分付近に収束し、学生分布が全変動距離に収束する条件を提供する。
我々の証明は、リプノフに基づく勾配降下ダイナミクスの新たな解析に依存しており、逆のフィッシャー発散の方が前方のフィッシャー発散よりもはるかに良い最適化環境を持つことが示されている。
関連論文リスト
- Convergence Dynamics of Over-Parameterized Score Matching for a Single Gaussian [48.340460104014]
学習モデルの勾配降下について検討し,1つのガウス分布を学習する。
複数の条件下での勾配降下に対する大域収束結果を証明した。
これは、スコアマッチングフレームワークの下で少なくとも3つの成分を持つガウス混合に対する大域収束保証を確立するための最初の試みである。
論文 参考訳(メタデータ) (2025-11-27T03:41:48Z) - End-To-End Learning of Gaussian Mixture Priors for Diffusion Sampler [15.372235873766812]
学習可能な混合前駆体は、探索の制御を改善し、目標支援への適応性を高め、モード崩壊に対抗するために増強する。
実験結果から,様々な実環境および総合的なベンチマーク問題に対して,大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-03-01T14:58:14Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Robust scalable initialization for Bayesian variational inference with
multi-modal Laplace approximations [0.0]
フル共分散構造を持つ変分混合は、パラメータ数による変動パラメータによる二次的な成長に苦しむ。
本稿では,変分推論のウォームスタートに使用できる初期ガウスモデル近似を構築する方法を提案する。
論文 参考訳(メタデータ) (2023-07-12T19:30:04Z) - Loss function based second-order Jensen inequality and its application
to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。
PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。
我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文 参考訳(メタデータ) (2021-06-09T12:13:51Z) - Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition [34.235007566913396]
ラベルに関連付けられた用語への分散の解釈可能で対称的な分解について述べる。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示す。
我々はまた、著しく豊かな現象論も分析する。
論文 参考訳(メタデータ) (2020-11-04T21:04:02Z) - Cumulant GAN [17.4556035872983]
GAN(Generative Adversarial Networks)を学習するための新しい損失関数を提案する。
対応する最適化問題は R'enyi divergence minimization と同値であることを示す。
我々は,画像生成がWasserstein GANに対してより堅牢であることを実験的に実証した。
論文 参考訳(メタデータ) (2020-06-11T17:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。