論文の概要: Simplicity Suffices for Parameter Noise Injection in Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2606.12054v1
- Date: Wed, 10 Jun 2026 13:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.467137
- Title: Simplicity Suffices for Parameter Noise Injection in Stochastic Gradient Descent
- Title(参考訳): 確率勾配Descenceにおけるパラメータノイズ注入の簡易性
- Authors: Benjamin Leblanc, Louis-Jacob Lebel, Teddy Kana, Richard Kamel,
- Abstract要約: 最適化プロセスにノイズを注入することは、ディープニューラルネットワークのトレーニングと一般化を改善するための確立された技術である。
ミニバッチトレーニングにおける各トレーニング例を,それぞれ独自の摂動と効率的にペアリングする方法,高機能な雑音パラメータ化とマルチサンプル勾配平均化が有意な利得をもたらすか否か,という2つの重要な疑問に焦点をあてる。
我々の結果は、単純で軽量な摂動戦略である、更新ステップ毎に1つのフォワードパスを持つ等方性雑音が、より複雑なスキームの利点のほとんどを取り戻すことを一貫して示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Injecting noise into the optimization process is a well-established technique for improving the training and generalization of deep neural networks. Yet, despite the breadth of existing approaches, it remains unclear which design choices truly matter in practice. In this work, we investigate parameter noise injection for stochastic gradient descent, focusing on two key questions: how to efficiently pair each training example with its own perturbation in mini-batch training, and whether sophisticated noise parameterizations or multi-sample gradient averaging yield meaningful gains over simpler alternatives. To address the first question, we leverage a distributional identity for linear layers that allows per-example noise injection without breaking batched computation. To address the second, we systematically compare several diagonal Gaussian parameterizations against an isotropic baseline across varying noise levels on CIFAR100. Our results consistently show that simple, lightweight strategies, isotropic noise with a single perturbed forward pass per update step, recover most of the benefit of more complex schemes. These findings suggest that simplicity suffices for parameter noise injection, and that practitioners need not resort to elaborate perturbation designs to reap the optimization and generalization benefits of noisy SGD.
- Abstract(参考訳): 最適化プロセスにノイズを注入することは、ディープニューラルネットワークのトレーニングと一般化を改善するための確立された技術である。
しかし、既存のアプローチの広さにもかかわらず、どの設計選択が実際に本当に重要なのかはいまだ不明である。
本研究は, 確率勾配降下に対するパラメータノイズ注入について検討し, それぞれのトレーニング例を, ミニバッチトレーニングにおける摂動と効率的にペアリングする方法, より単純な選択肢よりも有意な利得が得られるか, という2つの重要な疑問に焦点をあてる。
最初の問題に対処するために、バッチ計算を破ることなく、サンプルごとのノイズ注入を可能にする線形層に対する分布IDを利用する。
第二に、CIFAR100上の様々なノイズレベルにおける等方的ベースラインに対して、いくつかの対角ガウスパラメータ化を体系的に比較する。
我々の結果は、単純で軽量な戦略である、更新ステップ毎に1回の乱れ前方通過を伴う等方的ノイズが、より複雑なスキームの利点を回復していることを一貫して示している。
これらの結果から, パラメータノイズ注入の簡易性は十分であり, ノイズの多いSGDの最適化と一般化の利点を享受するために, 精巧な摂動設計に頼る必要はないことが示唆された。
関連論文リスト
- Second-order Optimization under Heavy-Tailed Noise: Hessian Clipping and Sample Complexity Limits [53.773695219320125]
重み付き雑音下での2階最適化の理論的理解に向けて第一歩を踏み出す。
勾配とヘッセン切断に基づく新しいアルゴリズムを導入し、基本限界にほぼ一致する高い確率上の境界を証明した。
論文 参考訳(メタデータ) (2025-10-12T16:36:54Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Tradeoffs between convergence rate and noise amplification for momentum-based accelerated optimization algorithms [8.669461942767098]
モーメントに基づく1次最適化アルゴリズムについて検討し, 繰り返しが付加的な白色雑音を受ける場合について検討した。
強い凸2次問題に対しては、雑音増幅の定量化のために最適化変数における誤差の定常分散を用いる。
雑音増幅と定位時間のバランスをとるアルゴリズムの2つのパラメータ化ファミリを導入する。
論文 参考訳(メタデータ) (2022-09-24T04:26:30Z) - Square Root Principal Component Pursuit: Tuning-Free Noisy Robust Matrix
Recovery [8.581512812219737]
本稿では,ノイズや外周波で劣化した観測結果から低ランク行列を復元する新しい枠組みを提案する。
平方根のラッソにインスパイアされたこの新しい定式化は、ノイズレベルに関する事前の知識を必要としない。
正規化パラメータの1つの普遍的な選択は、(事前未知の)雑音レベルに比例した再構成誤差を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2021-06-17T02:28:11Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。