論文の概要: Training for the Model You Return: Improving Optimization for Iterate-Averaged Language Models
- arxiv url: http://arxiv.org/abs/2606.25086v1
- Date: Tue, 23 Jun 2026 18:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.120581
- Title: Training for the Model You Return: Improving Optimization for Iterate-Averaged Language Models
- Title(参考訳): 返ってくるモデルのトレーニング: 反復平均言語モデルの最適化を改善する
- Authors: Kwok Chun Au, Adam Block,
- Abstract要約: 多くの現代の言語モデル(LM)パイプラインは、トレーニングパラメータの指数的な移動平均のような平均モデルを返す。
この平均的なパフォーマンスを改善するために、トレーニングをどのように変更すればよいのか?
本稿では, 最適制御問題として, 反復平均推定器の設計を定式化することによって, この問題を考察する。
- 参考スコア(独自算出の注目度): 10.749836992585363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many modern Language Model (LM) pipelines return an averaged model, such as an exponential moving average of the training iterates, rather than the final iterate itself. This raises a fundamental question: given that we will return an iterate average, how should we change training to improve the performance of this average? We study this question by formulating optimizer design for the iterate-average estimator as an optimal-control problem. In a continuous-time stochastic quadratic model, we solve for the control strategy that minimizes the error of the returned average subject to a penalty on the size of the intervention. A practical approximation to this controller yields PACE, a lightweight wrapper around AdamW that pulls the live weights toward their exponential moving average with a clipped, per-coordinate control strength. We prove that a stylized version of PACE converges at the standard stochastic convex optimization rate, up to a factor depending on the averaging rule, while in the quadratic setting it can strictly improve the limiting squared error of the iterate-average estimator and can do so by an arbitrarily large factor on some instances. Empirically, our results suggest that PACE improves over AdamW and EMA-evaluated AdamW in supervised fine-tuning of 1-2B parameter LMs and in GPT-2 pretraining on FineWeb for a wide range of learning rates, decay schedules, and other hyperparameters.
- Abstract(参考訳): 多くの現代の言語モデル(LM)パイプラインは、最終イテレーションそのものではなく、トレーニングの指数的な移動平均のような平均モデルを返す。
反復平均を返却するならば、この平均のパフォーマンスを改善するためにトレーニングをどのように変更すればよいのか?
本稿では, 最適制御問題として, 平均値推定器の最適化設計を定式化して検討する。
連続時間確率2次モデルでは、介入の大きさに対するペナルティを受ける平均値の誤差を最小限に抑える制御戦略を解く。
このコントローラの実用的近似は、AdamWを囲む軽量なラッパーであるPACEを、クリップで調整された制御強度で重量を指数的な移動平均に引き上げる。
PACEのスタイリング版が標準確率凸最適化率に収束することを証明し、平均値に依存する因子まで収束する一方、二次的な設定では、平均値推定器の制限二乗誤差を厳格に改善し、いくつかのインスタンスにおいて任意に大きな係数で行うことができる。
実験の結果,PACEはAdamWおよびEMAによるAdamWよりも,1-2BパラメータLMの微調整や,FinWeb上で広範囲の学習率,崩壊スケジュール,その他のハイパーパラメータの事前学習において改善することが示唆された。
関連論文リスト
- Parameter Averaging in Link Prediction [7.914373583039709]
本稿では、知識グラフ埋め込み(KGE)モデルにおいて、モデルマージ、特に重み付け平均化を導入する。
トレーニングエポック以降のモデルパラメータの平均の実行は維持され、予測に使用される。
我々は,これらの2つの重み付き平均化手法をリンク予測タスクで評価し,最先端のベンチマークアンサンブル手法と比較した。
論文 参考訳(メタデータ) (2025-10-29T10:32:39Z) - PADAM: Parallel averaged Adam reduces the error for stochastic optimization in scientific machine learning [5.052293146674794]
Ruppert-Polyak平均化や指数移動平均化(EMA)といった平均化技術は、一般的なADAMのような勾配降下(SGD)最適化手法の最適化を高速化するための強力なアプローチである。
本研究では,並列平均化ADAM(PADAM)と呼ばれる並列平均化手法を提案する。この手法では,ADAMの並列平均化変動を計算し,トレーニングプロセス中に最小の最適化誤差で勾配を動的に選択する。
論文 参考訳(メタデータ) (2025-05-28T08:07:34Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Two-Tailed Averaging: Anytime, Adaptive, Once-in-a-While Optimal Weight
Averaging for Better Generalization [0.0]
Tail AveragingはPolyak Averagingの非漸近的振る舞いを改善する。
純粋最適化ではなく一般化を改善することを目的としたTail Averagingの常用変種を提案する。
論文 参考訳(メタデータ) (2022-09-26T10:46:37Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Nested Model Averaging on Solution Path for High-dimensional Linear
Regression [12.173071615025504]
本研究では,高次元線形回帰問題に対するネストモデル平均化法について検討した。
モデル平均化と正規化推定器(例えば、ラッソとSLOPE)を高次元線形回帰の解経路上で組み合わせることを提案する。
米国における一人当たりの暴力犯罪の予測に関する実際のデータ分析は、ラッソで平均化するネストされたモデルの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-05-16T18:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。