論文の概要: A First-Order Mean Field Control Analysis of Transformer Layers under Cross-Entropy Training
- arxiv url: http://arxiv.org/abs/2606.23235v1
- Date: Mon, 22 Jun 2026 12:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:07:54.682642
- Title: A First-Order Mean Field Control Analysis of Transformer Layers under Cross-Entropy Training
- Title(参考訳): クロスエントロピートレーニングによる変圧器層の1次平均場制御解析
- Authors: Cheng Huan, Hongwei Yuan,
- Abstract要約: 連続深度平均場制御の観点から,トランスフォーマー型残留層をクロスエントロピートレーニングにより検討した。
固定制御に対しては、連続フローによる有限深度軌道のパスワイズ近似を$O(varepsilon)$とする。
また、有限クラスおよび計量エントロピーの均一推定を行い、最適値の比較を行い、連続最小値に対する存在、安定性、連続離散回復、範囲推定について議論する。
- 参考スコア(独自算出の注目度): 1.4180331276028662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study Transformer-type residual layers under cross-entropy training through a continuous-depth mean field control viewpoint. Depth is treated as time, layer parameters as controls, and the residual Transformer recursion as an explicit Euler scheme for a controlled hidden-state flow. For fixed controls, we prove an $O(\varepsilon)$ pathwise approximation of finite-depth trajectories by the continuous flow and combine this with high-probability sampling bounds for the empirical cross-entropy risk. We formulate the limiting population problem as a first-order transport control problem for the law of hidden states and derive a Pontryagin condition whose terminal adjoint contains the softmax residual. We also give finite-class and metric-entropy uniform estimates, compare optimal values, and discuss existence, stability, continuous-to-discrete recovery, initialization, and range estimates for continuous minimizers.
- Abstract(参考訳): 連続深度平均場制御の観点から,トランスフォーマー型残留層をクロスエントロピートレーニングにより検討した。
深さは時間、層パラメータは制御として扱われ、残留変圧器再帰は制御された隠れ状態流の明示的なオイラースキームとして扱われる。
固定制御に対しては、連続流による有限深度軌道のパスワイズ近似を$O(\varepsilon)$で証明し、これを経験的クロスエントロピーリスクに対する高確率サンプリング境界と組み合わせる。
隠れ状態の法則の1次輸送制御問題として制限人口問題を定式化し、終端随伴がソフトマックス残基を含むポントリャーギン条件を導出する。
また、有限クラスおよび計量エントロピーの均一推定を行い、最適値の比較を行い、連続最小値に対する存在、安定性、連続離散回復、初期化、範囲推定について議論する。
関連論文リスト
- Taming Curvature: Architecture Warm-Up for Stable Transformer Training [52.6838951211596]
本稿では,Hessian-vector製品を用いた暖かくスタートした変種に基づく最大(プレコンディション付き)Hessian固有値(曲率)の高速オンライン推定手法を提案する。
トレーニングの不安定性は、事前条件付き曲率の急激な上昇と一致し、曲率の深さが増加する。
大規模変圧器の実験により,本手法が効率的な曲率追跡を可能にし,不安定性を低減できることを確認した。
論文 参考訳(メタデータ) (2026-06-15T14:16:56Z) - A Mean-Field Analysis of Multi-Head Self-Attention under Cross-Entropy Training [0.0]
本稿では,クロスエントロピー最小化により学習した単一層因果多頭部自己注意モデルの平均場理論について述べる。
無限の上限において、平均的な注意ログは確率測度上のリスク関数を定義し、その最初の変動は非線形ワッサーシュタイン勾配流方程式を生成する。
我々は,PDEの長期的挙動について検討する:エネルギー散逸,コンパクト性の下での定常集合への収束,トポロジカルあるいはクルディカ-オジャシエヴィチ仮定の下での1つの定常測度への収束,勾配支配条件下での明示的な収束率。
論文 参考訳(メタデータ) (2026-06-09T06:38:27Z) - ProFlow: Zero-Shot Physics-Consistent Sampling via Proximal Flow Guidance [35.08166384258028]
ProFlowはゼロショット物理一貫性サンプリングのためのフレームワークである。
厳密な物理的整合性と観測的忠実さを事前訓練された前の統計構造と整合させる。
これは、より正確な分布統計だけでなく、より優れた物理的および観測的整合性を達成する。
論文 参考訳(メタデータ) (2026-01-28T03:57:00Z) - Terminally constrained flow-based generative models from an optimal control perspective [32.87833798690545]
フローベースモデルを用いた端末最適制御(TOCFlow)は,事前学習したフローに対する幾何対応のサンプリング時間誘導手法である。
制御ペナルティが増加するにつれて、制御されたプロセスは基準分布を回復するが、ペナルティが消えるにつれて、終端法則は制約多様体への一般化されたワッサーシュタイン射影に収束する。
等式,不等式,大域的統計的制約にまたがる3つの高次元科学的課題におけるTOCFlowの評価を行った。
論文 参考訳(メタデータ) (2026-01-14T13:32:15Z) - Verifying Closed-Loop Contractivity of Learning-Based Controllers via Partitioning [52.23804865017831]
本稿では,ニューラルネットワークによるパラメータ化を行う非線形制御系における閉ループ収縮の検証問題に対処する。
我々は、対称メッツラー行列の優越的固有値が非正であることを確かめるために、閉ループの縮約性に対するトラクタブルでスケーラブルな十分条件を導出する。
論文 参考訳(メタデータ) (2025-12-01T23:06:56Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Closed-Form Last Layer Optimization [72.49151473937319]
正方形損失の下では、線形最終層重みに対する最適解は閉形式で知られている。
これは、バックボーン上の勾配降下ステップと最終層上のクローズドフォーム更新の交互に行われることを示す。
論文 参考訳(メタデータ) (2025-10-06T09:14:39Z) - Controlling the Flow: Stability and Convergence for Stochastic Gradient Descent with Decaying Regularization [5.582101184758528]
我々は、余分な有界性仮定を伴わない元の問題の最小ノルム解に対して、reg-SGDの強い収束性を証明する。
分析の結果,Tikhonov正則化がSGDの流れを制御し,安定した学習力学が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-16T16:53:49Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。