論文の概要: A Mean-Field Analysis of Multi-Head Self-Attention under Cross-Entropy Training
- arxiv url: http://arxiv.org/abs/2606.10469v1
- Date: Tue, 09 Jun 2026 06:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.352853
- Title: A Mean-Field Analysis of Multi-Head Self-Attention under Cross-Entropy Training
- Title(参考訳): クロスエントロピートレーニングにおける多面的自己意識の平均場解析
- Authors: Cheng Huan, Hongfwei Yuan,
- Abstract要約: 本稿では,クロスエントロピー最小化により学習した単一層因果多頭部自己注意モデルの平均場理論について述べる。
無限の上限において、平均的な注意ログは確率測度上のリスク関数を定義し、その最初の変動は非線形ワッサーシュタイン勾配流方程式を生成する。
我々は,PDEの長期的挙動について検討する:エネルギー散逸,コンパクト性の下での定常集合への収束,トポロジカルあるいはクルディカ-オジャシエヴィチ仮定の下での1つの定常測度への収束,勾配支配条件下での明示的な収束率。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops a mean-field theory for a simplified single-layer causal multi-head self-attention model trained by cross-entropy minimization. Each attention head is treated as a particle in parameter space, and the empirical law of the heads is used as the large-head state variable. In the infinite-head limit, the averaged attention logits define a risk functional on probability measures, whose first variation generates a nonlinear Wasserstein gradient-flow equation. Unlike classical mean-field analyses of shallow networks that often focus on square-loss regression, the present model contains the softmax residual from the cross-entropy objective and the query-key-value structure of masked self-attention. We prove a static finite-head approximation bound for the optimal risk, characterize global minimizers through a variational support condition, and establish a quantitative finite-time propagation-of-chaos estimate comparing finite-head stochastic gradient descent with the limiting PDE. We then study the long-time behavior of the PDE: energy dissipation, convergence to the stationary set under compactness, convergence to a single stationary measure under topological or Kurdyka--Łojasiewicz assumptions, and explicit convergence rates under gradient-domination conditions. Finally, we prove local exponential stability under a Wasserstein strong-monotonicity condition and give verifiable stability and instability criteria for Dirac stationary measures. The results provide a rigorous baseline mean-field framework for attention-head training and clarify the additional compactness, landscape, and curvature assumptions needed to pass from stationarity to convergence and stability.
- Abstract(参考訳): 本稿では,クロスエントロピー最小化により学習した簡易な単一層因果多頭部自己注意モデルの平均場理論を開発する。
各アテンションヘッドはパラメータ空間の粒子として扱われ、ヘッドの経験則が大きなヘッド状態変数として使用される。
無限ヘッド極限において、平均的な注意ログは確率測度上のリスク関数を定義し、その最初の変動は非線形ワッサーシュタイン勾配流方程式を生成する。
直交エントロピー対象のソフトマックス残差とマスキング自己アテンションのクエリキー値構造を含む。
我々は、最適リスクに縛られた静的な有限頭部近似を証明し、変分支援条件により大域最小化を特徴付けるとともに、有限頭部確率勾配勾配と有限頭部確率勾配を制限PDEと比較した定量的な有限時間確率分布推定を確立する。
次に、PDEの長時間の挙動について研究する:エネルギー散逸、コンパクト性の下での定常集合への収束、トポロジカルあるいはクルディカ-ジョジャシエヴィチの仮定の下での単一の定常測度への収束、勾配支配条件下での明示的な収束率。
最後に、ワッサーシュタインの強い単調性条件下での局所指数安定性を証明し、ディラック定常測度に対する検証可能な安定性と不安定性基準を与える。
その結果, 集中訓練のための厳密なベースライン平均場フレームワークが提供され, 定常性から収束性, 安定性への移行に必要な, コンパクト性, ランドスケープ, および曲率の仮定が明確になった。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Derivative-Free Sequential Quadratic Programming for Equality-Constrained Stochastic Optimization [3.2489082010225485]
我々は、客観的で決定論的な等式制約で非線形最適化問題を解くことを検討する。
本稿では,DF-SSQP法を提案する。
標準仮定では,提案したDF-SSQP法を大域的にほぼ収束させる。
論文 参考訳(メタデータ) (2025-10-25T23:51:20Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Asymptotic breakdown point analysis of the minimum density power divergence estimator under independent non-homogeneous setups [2.449909275410287]
最低密度パワー分散推定器 (MDPDE) は、ロバスト推論の文献において大きな注目を集めている。
独立系や非均一系(INH)の観測など、様々な装置でうまく応用されている。
INH設定下におけるこの推定器のグローバルな信頼性や破壊挙動に関する一般的な結果は分かっていない。
論文 参考訳(メタデータ) (2025-08-17T16:33:58Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - A Local Convergence Theory for the Stochastic Gradient Descent Method in
Non-Convex Optimization With Non-isolated Local Minima [0.0]
非孤立ミニマは、未探索のままのユニークな挑戦を示す。
本稿では, 勾配降下法の非溶解大域ミニマへの局所収束について検討する。
論文 参考訳(メタデータ) (2022-03-21T13:33:37Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。