論文の概要: DREG: A Layer-Wise Jacobian Regularization as a General-Purpose Penalty
- arxiv url: http://arxiv.org/abs/2606.23942v1
- Date: Mon, 22 Jun 2026 21:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.690498
- Title: DREG: A Layer-Wise Jacobian Regularization as a General-Purpose Penalty
- Title(参考訳): DREG:一般罰としての層幅ジャコビアン正規化
- Authors: Rowan Martnishn,
- Abstract要約: 派生正規化ペナルティ(DREG)の貢献を実証した大規模実証研究を報告する。
4つのアクティベーション、6つのレギュラーライザ、8つのデータセット、5つのランダムシードにまたがる960の実験を網羅して、私たちは、いつ、どこで、なぜDREGが機能するのかを尋ねました。
DREGは、評価された全ての正則化器の中で、総合的およびクリーンレジームの精度が最も高い。
スペクトル正規化(SN: Spectral Normalization)は、この研究で唯一2つの層ワイド正規化器である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present a large-scale empirical study isolating the contributions of the Derivative Regularization penalty (DREG). Across a fully-crossed factorial sweep of 960 experiments spanning 4 activations, 6 regularizers, 8 datasets, and 5 random seeds, we ask: when, where, and why does DREG work? Our results establish three principal findings. First, DREG achieves the highest overall and clean-regime accuracy among all regularizers evaluated (significantly so against the unregularized baseline, Weight Decay, and IGPen; Wilcoxon $p \leq 0.031$). It ranks second in noise robustness behind Spectral Normalization (SN) - the only two layer-wise regularizers in the study. Second, DREG is globally the best-performing regularizer under GELU, the default activation in modern transformer architectures, particularly on both messy vision and messy NLP benchmarks, suggesting direct applicability to frontier deep learning settings. Third, DREG's advantage over competing regularizers is most pronounced under data scarcity, consistent with its role as a geometric inductive bias that substitutes for the regularizing effect of data volume. Throughout, DREG is applied with a single fixed hyperparameter $λ= 10^{-2.5}$ and no per-dataset tuning, supporting its characterization as a plug-and-play regularizer for neural networks with nontrivial Jacobian structure. These findings are consistent with DREG's design: concentrating regularization pressure on layers where the activation derivative is largest, rather than constraining the network uniformly.
- Abstract(参考訳): 本稿では,DREG(デリバティブ・レギュラライゼーション・ペナルティ)の貢献を実証した大規模な実証研究について紹介する。
4つのアクティベーション、6つのレギュラーライザ、8つのデータセット、5つのランダムシードにまたがる960の実験を網羅して、私たちは、いつ、どこで、なぜDREGが機能するのかを尋ねました。
結果から3つの主要な所見が得られた。
まず、DREGは評価されたすべての正則化器の中で最も総合的かつクリーンな登録精度を達成している(特に、正規化されていないベースラインであるWeight Decay と IGPen に対して、Wilcoxon $p \leq 0.031$)。
スペクトル正規化(SN: Spectral Normalization)は、この研究で唯一2つの層ワイド正規化器である。
第二に、DREGはGELUの下では世界で最高のパフォーマンスのレギュレータであり、現代のトランスフォーマーアーキテクチャではデフォルトのアクティベーションであり、特に乱雑なビジョンと乱雑なNLPベンチマークの両方で有効であり、フロンティアのディープラーニング設定への直接的な適用性を示している。
第3に、競合する正規化器に対するDREGのアドバンテージは、データボリュームの正規化効果の代わりに幾何学的帰納バイアスとしての役割と整合して、データ不足下で最も顕著である。
DREGは1つの固定されたハイパーパラメータ$λ=10^{-2.5}$で適用され、データセットごとのチューニングは行わず、非自明なジャコビアン構造を持つニューラルネットワークのプラグアンドプレイ正規化器として特徴づけられる。
これらの結果はDREGの設計と一致しており、ネットワークを一様に拘束するのではなく、活性化微分が最大となる層に正規化圧力を集中させることである。
関連論文リスト
- Layer-wise Derivative Controlled Networks Achieve Competitive Accuracy and Gradient Stability Across Data Regimes [0.0]
ChainzRuleに基づく導電性制御ネットワークは、立方体層と軽量前方モード層毎のジャコビアンペナルティ(DREG)を組み合わせた。
Pima Diabetesデータセットでは、CRは強力な低データパフォーマンスを実現し、ベースラインを5%から100%のトレーニングデータから一貫した精度の優位性を維持する。
SST-5の拡張は、凍結浸漬とBERT微調整の双方において、競争力または優れた結果を示す。
論文 参考訳(メタデータ) (2026-06-06T00:14:22Z) - Layer-wise Derivative Controlled Networks [0.0]
本稿では、機械学習の競合する目標を調和させるために設計された新しいニューラルネットワークであるChainzRuleを紹介する。
ヘッド・ツー・ヘッドのベンチマークでは、ChainzRuleは15.5倍のパラメータを使用しながら標準モデルを上回った。
DREGを通じてアーキテクチャに勾配認識を埋め込むことで、ChainzRuleは安定性と精度が競合する目標である必要はないことを示した。
論文 参考訳(メタデータ) (2026-05-14T22:57:51Z) - A Systematic Empirical Study of Grokking: Depth, Architecture, Activation, and Regularization [0.0]
暗記からニューラルネットワークの一般化への遅れた遷移をグロッキングすることは、まだ理解されていない。
モジュラー加算に関する因子を系統的に分散させる制御された研究(mod 97)を提案する。
我々の中心的な発見は、グラッキングダイナミクスはアーキテクチャーによって決定されるのではなく、安定性と正規化の間の相互作用によって決定されることである。
論文 参考訳(メタデータ) (2026-03-26T04:16:01Z) - Does Generative Retrieval Overcome the Limitations of Dense Retrieval? [117.49076770892583]
生成的検索(GR)はニューラル情報検索の新しいパラダイムとして登場した。
本研究では,GRが高密度検索(DR)から学習目的と表現能力の両方において根本的に分岐するかを検討する。
論文 参考訳(メタデータ) (2025-09-26T09:38:01Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。