論文の概要: Taming Curvature: Architecture Warm-Up for Stable Transformer Training
- arxiv url: http://arxiv.org/abs/2606.16768v1
- Date: Mon, 15 Jun 2026 14:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.609143
- Title: Taming Curvature: Architecture Warm-Up for Stable Transformer Training
- Title(参考訳): Taming Curvature: 安定したトランスフォーマートレーニングのためのアーキテクチャウォームアップ
- Authors: Sameera Ramasinghe, Ajanthan Thalaiyasingam, Hadi Mohaghegh Dolatabadi, Chamin Hewa Koneputugodage, Gil Avraham, Violetta Shevchenko, Yan Zuo, Karol Pajak, Alexander Long,
- Abstract要約: 本稿では,Hessian-vector製品を用いた暖かくスタートした変種に基づく最大(プレコンディション付き)Hessian固有値(曲率)の高速オンライン推定手法を提案する。
トレーニングの不安定性は、事前条件付き曲率の急激な上昇と一致し、曲率の深さが増加する。
大規模変圧器の実験により,本手法が効率的な曲率追跡を可能にし,不安定性を低減できることを確認した。
- 参考スコア(独自算出の注目度): 52.6838951211596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training billion-parameter Transformers is often brittle, with transient loss spikes and divergence that waste compute. Even though the recently developed Edge of Stability (EoS) theory provides a powerful tool to understand and control the stability of optimization methods via the (preconditioned) curvature, these curvature-controlling methods are not popular in large-scale Transformer training due to the complexity of curvature estimation. To this end, we first introduce a fast online estimator of the largest (preconditioned) Hessian eigenvalue (i.e., curvature) based on a warm-started variant for power iteration with Hessian-vector products. We show theoretically, and verify empirically, that the proposed method makes per-iteration curvature tracking feasible at billion parameter scale while being more accurate. Using this tool, we find that training instabilities coincide with surges in preconditioned curvature and that curvature grows with depth. Motivated by these observations, we propose architecture warm-up: progressively growing network depth to carefully control the preconditioned Hessian and stabilize training. Experiments on large Transformers validate that our approach enables efficient curvature tracking and reduces instabilities compared to existing state-of-the-art stabilization techniques without slowing down convergence.
- Abstract(参考訳): 数十億パラメータのトランスフォーマーのトレーニングは、しばしば脆く、過渡的な損失のスパイクと、計算を無駄にする分散が伴う。
最近開発されたEdge of Stability (EoS)理論は、(事前条件付き)曲率による最適化手法の安定性を理解し制御するための強力なツールを提供するが、これらの曲率制御法は、曲率推定の複雑さのため、大規模なトランスフォーマートレーニングでは一般的ではない。
この目的のために、我々は最初に、Hessian-vector製品による電力反復の暖かくスタートした変種に基づいて、最大(プレコンディション付き)ヘッセン固有値(すなわち曲率)の高速オンライン推定器を導入する。
提案手法は,10億のパラメータスケールにおいて,より正確でありながら,解像毎の曲率追跡が実現可能であることを理論的に証明し,実証的に検証する。
このツールを用いて、トレーニングの不安定性は事前条件付き曲率の急激な上昇と一致し、曲率の深さが増加する。
これらの観測によって動機付けられたアーキテクチャウォームアップ - ネットワーク深度を徐々に増加させ、プレコンディショニングされたヘッセンを注意深く制御し、トレーニングを安定させる。
大規模変圧器の実験では, コンバージェンスを低下させることなく, 従来の安定化技術と比較して, 効率的な曲率追跡が可能であり, 不安定性を低減できることがわかった。
関連論文リスト
- Exponential Convergence of (Stochastic) Gradient Descent for Separable Logistic Regression [14.718691362208622]
簡単な非適応的なステップサイズスケジュールによる勾配勾配勾配は、マージン条件下での分離可能なロジスティック回帰の指数収束を実現することを示す。
また、線形探索や特殊手順を回避する軽量適応的なステップサイズルールを用いて勾配降下の指数収束を確立する。
論文 参考訳(メタデータ) (2026-02-21T19:31:07Z) - Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation [6.710608163117798]
非同期パイプライン並列処理は、同期実行に固有のパイプラインバブルを排除し、ハードウェア利用を最大化する。
この効率向上は勾配安定度によって損なわれ、遅延勾配による即時モデル更新は最適化プロセスにノイズをもたらす。
本稿では,アライメント問題を効果的に緩和し,非同期設定における収束を著しく促進することを示す,ベースローテーションの利用を提案する。
論文 参考訳(メタデータ) (2026-02-03T13:31:51Z) - Zero-Variance Gradients for Variational Autoencoders [32.818968022327866]
変分オートエンコーダ(VAE)のような深層生成モデルの訓練は、潜伏変数のサンプリングを通じて勾配をバックプロパゲートする必要性によって、しばしば妨げられる。
本稿では,この問題をサイドステップとして,Silent Gradientsと呼ぶ新しい視点を提案する。
推定器を改良する代わりに、特定のデコーダアーキテクチャを解析的に利用して予測されるELBOを計算する。
論文 参考訳(メタデータ) (2025-08-05T15:54:21Z) - Implicit factorized transformer approach to fast prediction of turbulent channel flows [6.70175842351963]
本稿では,従来の連鎖因数分解処理を並列因数分解処理に置き換える改良型暗黙因数分解変換器 (IFactFormer-m) モデルを提案する。
IFactFormer-mモデルは乱流流の長期予測に成功している。
論文 参考訳(メタデータ) (2024-12-25T09:05:14Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。