論文の概要: Scaling Adaptive Depth with Norm-Agnostic Residual Networks
- arxiv url: http://arxiv.org/abs/2606.16112v1
- Date: Mon, 15 Jun 2026 02:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.033141
- Title: Scaling Adaptive Depth with Norm-Agnostic Residual Networks
- Title(参考訳): Norm-Agnostic Residual Networksによる適応深さのスケーリング
- Authors: Tomás Figliolia, Beren Millidge,
- Abstract要約: NAGは標準に依存しない残差アーキテクチャであり、残差ストリームの方向情報から大きさを分離する。
NAGは無視できる数の追加パラメータしか導入せず、簡単にカーネルで実現可能な単純な操作に依存している。
このアーキテクチャはベースライントランスフォーマーよりも優れており,奥行きが大きくなるにつれて大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 9.219329760729629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residual architectures are ubiquitous in deep learning, but they suffer from a subtle structural limitation: the norm of the residual stream can grow rapidly with depth. As a result, updates from later layers become small relative to the accumulated residual state. This reduces their impact on the representation and limits the benefits of scaling models in depth. To address this, we introduce NAG, a norm-agnostic residual architecture that separates magnitude from directional information in the residual stream, preserving meaningful layer contributions throughout depth and preventing later updates from being systematically suppressed by residual-norm growth. Importantly, NAG introduces only a negligible number of additional parameters and relies on simple operations that are easily kernel-fusible, preserving training efficiency in practice. We show that this architecture outperforms baseline Transformers, with gains that increase substantially as depth grows, enabling effective training of much deeper models. The norm-agnostic formulation also leads to an interpretable Mixture-of-Depths (MoD) mechanism that adaptively skips both attention and MLP layers. Beyond serving as a post-training accuracy-compute tradeoff, this mechanism can be used as a pretraining-time scaling strategy: under iso-FLOP training, compute saved by reducing per-token forward-pass cost can be reinvested into training on more tokens while keeping the total parameter count and KV-cache budget fixed. In our experiments, moderate Mixture-of-Depths rates of approximately 20%-25% match full-depth baseline performance under equal training compute while substantially reducing the number of executed layer parameters and forward-pass FLOPs. These results identify sparsity in depth as a new scaling axis for fixed-compute training, enabling very deep yet FLOP-efficient models.
- Abstract(参考訳): 残余のアーキテクチャはディープラーニングではユビキタスだが、微妙な構造的制限に悩まされ、残余のストリームのノルムは深さとともに急速に成長する。
その結果、後層からの更新は、蓄積された残留状態と比較して小さくなる。
これにより、表現への影響を減らし、モデルを深くスケーリングするメリットを制限します。
この問題を解決するために、NAGは、残留ストリームの方向情報から大きさを分離し、奥行きを通じて意味のあるレイヤのコントリビューションを保存し、後続の更新が残留ノーム成長によって体系的に抑制されるのを防ぐ、標準に依存しない残留アーキテクチャである。
重要なことは、NAGは無視できる数の追加パラメータしか導入せず、カーネルで簡単に実現可能な単純な操作に依存しており、実際はトレーニング効率を保っている。
このアーキテクチャはベースライントランスフォーマーよりも優れており、奥行きが大きくなるにつれて大幅に向上し、より深いモデルの効果的なトレーニングを可能にしている。
ノルムに依存しない定式化はまた、注意層とMLP層の両方を適応的にスキップする解釈可能な混合深度(MoD)機構をもたらす。
トレーニング後の精度-計算トレードオフとして機能する以外に、このメカニズムは事前トレーニング時のスケーリング戦略として使用することができる。イソ-FLOPトレーニングでは、トーケントフォワードパスコストの削減による計算を、合計パラメータ数とKVキャッシュ予算を固定しつつ、より多くのトークンのトレーニングに再投資することができる。
実験では, ほぼ20%-25%のミクチャー・オブ・デプスが, 実行層パラメータとフォワードパスFLOPの数を大幅に減少させながら, 等深度ベースライン性能にほぼ一致した。
これらの結果から, 深部空間の空間密度を固定計算学習のための新しいスケーリング軸として同定し, 極めて深いFLOP効率モデルを実現することができた。
関連論文リスト
- QB-LIF: Learnable-Scale Quantized Burst Neurons for Efficient SNNs [18.0608697536269]
量子化されたBurst-LIFニューロンは、学習可能なスケールで膜電位の飽和均一な量子化としてバーストスパイクを再構成する。
QB-LIFはバイナリと固定バーストSNNを一貫して上回り、超低レイテンシで高い精度を達成する。
論文 参考訳(メタデータ) (2026-04-28T14:18:53Z) - ANCRe: Adaptive Neural Connection Reassignment for Efficient Depth Scaling [57.91760520589592]
ネットワークの深度を拡大することは、現代の基礎モデルの成功の背後にある中心的な要因である。
本稿では,ニューラルネットワークの奥行き,すなわち残差接続の既定メカニズムを再考する。
我々は、データから残余接続性をパラメータ化し、学習する原則的かつ軽量なフレームワークである、適応型ニューラルネットワーク再割り当て(ANCRe)を導入する。
論文 参考訳(メタデータ) (2026-02-09T18:54:18Z) - Understanding Scaling Laws in Deep Neural Networks via Feature Learning Dynamics [9.885471525709113]
スケーリング法則は、成功とはどのようなもので、いつ、なぜスケーリングが成功するか、失敗なのかを記述している。
中心的な障害は、大きな深さで特徴学習の厳密な理解が欠如していることである。
論文 参考訳(メタデータ) (2025-12-24T09:39:04Z) - Feedback Alignment Meets Low-Rank Manifolds: A Structured Recipe for Local Learning [7.034739490820967]
バックプロパゲーション(BP)を用いたディープニューラルネットワーク(DNN)のトレーニングは、最先端の精度を実現するが、大域的なエラー伝搬と完全なパラメータ化が必要である。
ダイレクトフィードバックアライメント(DFA)は、メモリ要件の低いローカルで並列化可能な更新を可能にする。
低ランク多様体上で直接動作する構造化局所学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:03:46Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
本稿では,DeepONetのトレーニングに採用するランダムサンプリング手法を提案する。
従来のトレーニングアプローチと比較して、テスト全体のエラーを同等あるいは低いものにしながら、トレーニング時間の大幅な削減を実証する。
この結果から,訓練中のトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性とロバスト性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-20T07:18:31Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。