論文の概要: What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy
- arxiv url: http://arxiv.org/abs/2606.18465v1
- Date: Tue, 16 Jun 2026 20:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.887529
- Title: What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy
- Title(参考訳): 農業における軽量ノームコントロールとは何か : クロスエントロピー下におけるロジトスケールメディエーション
- Authors: Truong Xuan Khanh,
- Abstract要約: 規範が実際に何を制御するのかを尋ねる。
クロスエントロピーの下で、標準誘導範囲全体にわたってグラッキング遅延をスライスする。
標準の格子と温度を横切ると、遅延はロジットスケールだけで崩壊する(R2 = 0.97)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grokking, the delayed jump from memorization to generalization, is usually tied to the weight norm: a smaller norm generalizes sooner. We ask what the norm actually controls. Holding the weight norm fixed by clamping and varying only an output temperature, we slide the grokking delay across its entire norm-induced range under cross-entropy; matching the effective logit scale back to baseline recovers about 85% of the delay at two moduli. Across a grid of norms and temperatures the delay collapses onto the logit scale alone (R2 = 0.97), with the norm adding 1-2% beyond it. The effect is loss-dependent: under mean-squared error the logit scale is pinned and the norm acts through a different route. A memorization control, a float64 softmax-collapse audit, and a no-LayerNorm transformer point to the same channel. Forking arms from one identical state, the delay follows the held norm value and not the clamp operation, which closes a rescaling-artifact concern. The proximal variable is the logit scale and the softmax saturation it drives; the weight norm is only an upstream handle. All numbers, tables, and figures reproduce from released code and data.
- Abstract(参考訳): 暗記から一般化への遅れたジャンプであるグロキングは、通常はウェイトノルムと結び付けられ、より小さなノルムはより早く一般化される。
規範が実際に何を制御するのかを尋ねる。
重みノルムをクランプで固定し, 出力温度だけ変化させることで, クロスエントロピー下でのノルム誘導範囲全体のグルーキング遅延をスライスし, 有効ロジットスケールをベースラインに戻すと, 2つのモードで約85%の遅延が回復する。
標準の格子と温度を横切ると、遅延はロジットスケールだけで崩壊する(R2 = 0.97)。
平均二乗誤差の下では、ロジットスケールが固定され、標準は異なる経路で作用する。
記憶制御、float64ソフトマックス崩壊監査、No-LayerNorm変換器は同じチャネルを指す。
1つの同じ状態から腕をフォークすると、遅延は保持されたノルム値に従い、クランプ操作は行わない。
近似変数はロジットスケールとそれが駆動するソフトマックス飽和であり、ウェイトノルムは上流ハンドルのみである。
すべての数値、テーブル、フィギュアは、リリースされたコードとデータから再生される。
関連論文リスト
- The Weight Norm Sets the Grokking Timescale: A Causal Delay Law [0.0]
グロッキングはニューラルネットワークにおける一般化の遅れの始まりであり、トレーニングデータに適合してから長く経つ。
重み劣化を伴う自由トレーニングでは、重みノルムが値 Wc に達するとネットワークが揺らぐ。
代わりに、Wc の固定された多重ローにノルムを挟み込み、それをそこに保持すると、ネットワークは依然としてグロークするが、遅延はexp(alpha rho) に比例する T_grok に従う。
論文 参考訳(メタデータ) (2026-06-11T15:36:10Z) - Predictive Autoscaling for Node.js on Kubernetes: Lower Latency, Right-Sized Capacity [0.0]
新たなキャパシティの準備が整うまでに,負荷がどこにあるかを予測する,予測スケーリングアルゴリズムを提案する。
一方、KEDAは154ms、HPAは522msである。
論文 参考訳(メタデータ) (2026-04-21T17:25:39Z) - Gated Removal of Normalization in Transformers Enables Stable Training and Efficient Inference [2.1665689529884697]
RMSNorm/LayerNormをドロップインで置き換えたTaperNormを紹介します。
1つのグローバルゲートは、ゲートウォームアップ中に$g=1$で保持され、EMAを介してスケーリングブランチをキャリブレーションし、コサインデケイを$g=0$にする。
マイクロベンチマークでは、折りたたみ内部のスケーリングは、ラスト・トーケン・ロジット・モードで最大1.22倍のスループットを得る。
論文 参考訳(メタデータ) (2026-02-11T01:40:34Z) - Late-Stage Generalization Collapse in Grokking: Detecting anti-grokking with Weightwatcher [1.6615337656760856]
ニューラルネットワークにおけるemphMemorizationは、正確な運用定義が欠如しており、しばしばグラッキングレジームから推測される。
我々は、このトレーニング体制において、未報告の第3段階である、エンファンティ・グロッキング(emphanti-grokking)、すなわち、一般化の後期崩壊を識別する。
論文 参考訳(メタデータ) (2026-02-02T22:09:14Z) - Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression [53.48692193399171]
Gated KalmaNet(GKA)は、次のトークンを予測する際に、すべての過去を説明することによってギャップを低減するレイヤである。
テスト時間におけるオンラインリッジ回帰問題を一定メモリと線形計算コストで解決する。
ロングコンテキストでは、GKAは現実世界のRAGタスクとLongQAタスクを最大128kトークンまで拡張し、他の薄型メモリベースラインよりも10ドル%以上の相対的な改善を実現している。
論文 参考訳(メタデータ) (2025-11-26T03:26:37Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective [90.39123717733334]
そこで本研究では,Shduled Weight Decay (SWD) 法と呼ばれる,減量のための最初の実用的なスケジューラを提案する。
我々の実験は、SWDが実際に大きな勾配ノルムを緩和し、適応モーメント推定(Adam)の従来の定重崩壊戦略を著しく上回っていることも裏付けている。
論文 参考訳(メタデータ) (2020-11-23T00:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。