論文の概要: On the Residual Scaling of Looped Transformers: Stability and Transferability
- arxiv url: http://arxiv.org/abs/2606.18524v1
- Date: Tue, 16 Jun 2026 22:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.919905
- Title: On the Residual Scaling of Looped Transformers: Stability and Transferability
- Title(参考訳): ループ変換器の残留スケーリングについて:安定性と伝達性
- Authors: Shaowen Wang, Bingrui Li, Ge Zhang, Wenhao Huang, Shen Yan, Jian Li,
- Abstract要約: 1/N$のスケーリングは、トレーニング性を改善し、ループ数で1/sqrtN$のスケーリングよりも優れた損失をもたらすことを示す。
ループ変換器の実験では、1/N$のスケーリングがトレーニング性を改善し、ループ数を越えたスケールで1/sqrtN$よりもよい損失をもたらすことが確認されている。
- 参考スコア(独自算出の注目度): 31.27468588849646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Looped (weight-tied) Transformers apply a shared residual block $N$ times ($h \leftarrow h + \varepsilon\,f(h)$, same $f$ at each step), increasing effective depth without adding parameters. Prior depth-scaling analyses prescribe $\varepsilon = 1/\!\sqrt{L}$ for depth-$L$ residual networks. We show that this is insufficient for looped architectures: weight sharing makes residual updates correlated across iterations, requiring the stronger scaling $\varepsilon = 1/N$. For multi-layer blocks ($L$ unique layers looped $N$ times), we derive a factored parameterization $\varepsilon = λ/(N\!\sqrt{L})$ that separates the two sources of growth: $1/N$ controls the within-layer loop correlation, and $1/\!\sqrt{L}$ controls the across-layer variance. A key consequence is that the optimal learning rate depends only on the number of unique layers $L$, not on the loop count $N$, enabling direct hyperparameter transfer from small to large $N$ without retuning. Experiments on looped Transformers confirm that $1/N$ scaling improves trainability and yields better loss than $1/\!\sqrt{N}$ scaling across loop counts.
- Abstract(参考訳): Looped (weight-tied) Transformerは、共有残余ブロック$N$ times$h \leftarrow h + \varepsilon\,f(h)$, same $f$を各ステップで適用し、パラメータを追加することなく効果的な深さを増大させる。
事前の深さスケーリング分析では$\varepsilon = 1/\!
深さ-$L$残差ネットワークに対して \sqrt{L}$。
重みの共有は繰り返しの間に残余の更新を相関させ、より強力なスケーリングの$\varepsilon = 1/N$を必要とします。
多層ブロック (L$ unique layer looped $N$ times) の場合、因子化パラメータ化$\varepsilon = λ/(N\!
1/N$は層内ループ相関を制御し、1/\!
\sqrt{L}$は層間分散を制御する。
その結果、最適な学習レートは、ループ数$N$ではなく、ユニークなレイヤ数$L$にのみ依存し、調整することなく、小さなものから大きなものへの直接ハイパーパラメータ転送を可能にする。
ループトランスフォーマーの実験では,1/N$のスケーリングによってトレーニング性が向上し,1/\!
\sqrt{N}$ ループカウントのスケーリング。
関連論文リスト
- How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models [33.509836193149795]
ループ(深度再帰)言語モデルにどれだけの余分な再発があるかを測定する。
本手法は任意のループ化LMに適用し,真のループ改善をトークン予算ゲインから分離する。
論文 参考訳(メタデータ) (2026-04-22T21:51:11Z) - Efficient and Minimax-optimal In-context Nonparametric Regression with Transformers [5.687100661457289]
我々は、$(log n)パラメータと$bigl(n2/(2+d)log3 nbigr)$事前学習列を持つ事前学習変換器が、最小収束率を達成できることを証明する。
論文 参考訳(メタデータ) (2026-01-21T14:13:38Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Arithmetic-Mean $μ$P for Modern Architectures: A Unified Learning-Rate Scale for CNNs and ResNets [9.94514344279733]
Arithmetic-Mean $mu$P は個々の層ではなく、ネットワーク全体の平均1ステップのプレアクティベーション第2モーメントを一定スケールに制限する。
1次元および2次元の畳み込みネットワークの場合、最大更新学習率は$etastar(L)propto L-3/2$; を満足する。
論文 参考訳(メタデータ) (2025-10-05T19:22:50Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。