論文の概要: Neural Scaling Universality: If Exponents Are Fixed, Time to Understand Coefficients
- arxiv url: http://arxiv.org/abs/2606.25008v1
- Date: Tue, 23 Jun 2026 17:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.103649
- Title: Neural Scaling Universality: If Exponents Are Fixed, Time to Understand Coefficients
- Title(参考訳): ニューラルネットワークの普遍性 - 指数が固定された場合、係数を理解する時間
- Authors: Yizhou Liu, Jeff Gore,
- Abstract要約: ニューラルスケーリング法則は、トレーニング時間、モデルサイズ、計算量を含むパワー法則として、事前学習損失がいかに崩壊するかを記述する。
我々は、その係数を理解することが、短期的なパフォーマンス改善の鍵であると主張する。
- 参考スコア(独自算出の注目度): 3.294420397461204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws describe how pre-training loss decays as power laws with training time, model size, and compute. This position paper argues that the exponents of these power laws are fixed by generic mechanisms: a one-third time scaling due to the strong nonlinearity of Softmax, an inverse width scaling due to representational superposition, and an inverse depth scaling due to ensemble averaging of Transformer layers. These mechanisms are robust to a wide range of data structures and architectural details, placing current large language models in a universality class with fixed exponents. The coefficients, however, are expected to be sensitive to data and architecture details, and directly determine practical quantities such as the optimal model shape and the compute-optimal frontier. We therefore argue that understanding the coefficients is the key to near-term performance improvements, and that a closer examination of the current universality class may reveal pathways to better universality classes.
- Abstract(参考訳): ニューラルスケーリング法則は、トレーニング時間、モデルサイズ、計算量を含むパワー法則として、事前学習損失がいかに崩壊するかを記述する。
この位置紙は、これらのパワー則の指数は、ソフトマックスの強い非線形性による3分の1の時間スケーリング、表現的重ね合わせによる逆幅スケーリング、トランスフォーマー層のアンサンブル平均による逆深さスケーリングといった一般的なメカニズムによって固定されていると主張している。
これらのメカニズムは幅広いデータ構造やアーキテクチャの詳細に対して堅牢であり、現在の大きな言語モデルを固定指数を持つ普遍性クラスに配置する。
しかし、係数はデータやアーキテクチャの詳細に敏感であることが期待され、最適モデル形状や計算最適フロンティアといった実用量を直接決定する。
したがって、係数の理解は、短期的な性能向上の鍵であり、現在の普遍性クラスをより詳しく調べることで、より良い普遍性クラスへの経路を明らかにすることができると論じる。
関連論文リスト
- The Error of Deep Operator Networks Is the Sum of Its Parts: Branch-Trunk and Mode Error Decompositions [45.88028371034407]
演算子学習は、微分方程式の解演算子を学習することによって、科学計算に強い影響を与える可能性がある。
普遍近似特性が証明されているにもかかわらず、ディープ作用素ネットワーク(DeepONets)は、実際は限られた精度と一般化を示すことが多い。
この研究は、古典的なDeepONetアーキテクチャのパフォーマンス制限を分析する。
論文 参考訳(メタデータ) (2026-02-25T13:38:08Z) - Unifying Learning Dynamics and Generalization in Transformers Scaling Law [1.5229257192293202]
大規模言語モデル(LLM)開発の基盤であるスケーリング法則は,計算資源の増加に伴うモデル性能の向上を予測している。
この研究は、変圧器に基づく言語モデルの学習力学を常微分方程式(ODE)システムとして定式化する。
本分析では,データによる計算資源のスケールとして,一般化誤差と既約リスクの収束を特徴付ける。
論文 参考訳(メタデータ) (2025-12-26T17:20:09Z) - Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks [59.552873049024775]
計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。
学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。
これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
論文 参考訳(メタデータ) (2025-07-02T20:03:34Z) - Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [56.032091696552094]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。
本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。
多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文 参考訳(メタデータ) (2024-11-11T01:05:28Z) - Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra [0.0]
ニューラルスケーリング法則は、深層ニューラルネットワークのパフォーマンスが、トレーニングデータサイズ、モデルの複雑さ、トレーニング時間などの重要な要因とどのようにスケールするかを記述する。
我々は, 統計力学の手法を用いて, 生徒-教員間の一パス勾配勾配を解析する。
論文 参考訳(メタデータ) (2024-10-11T17:21:42Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。
本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。