論文の概要: Towards Engineering Scaling Laws with Pretraining Data Composition
- arxiv url: http://arxiv.org/abs/2606.19781v1
- Date: Thu, 18 Jun 2026 04:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.646449
- Title: Towards Engineering Scaling Laws with Pretraining Data Composition
- Title(参考訳): データ構成の事前学習によるエンジニアリングスケーリング法則の実現に向けて
- Authors: Jan-Lucas Uslu, Kevin Greif, Daniel Whiteson, Benjamin Nachman,
- Abstract要約: 素粒子物理学では、合成データを安価に生成する高忠実度シミュレータを持つ。
これにより、追加データが追加パラメータよりも安くなり、事前トレーニングデータセット自体がスケーリングに影響を与えるように設計されるスケーリングレシエーションが好まれる。
高エネルギー粒子ビームの衝突により発生するハドロンジェットを分類する作業において,大規模モデルではなく,より多くのデータを必要とするようにスケーリング挙動を設計できることが示唆された。
- 参考スコア(独自算出の注目度): 0.9461871831924723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws describe how model performance improves as a power law in compute, model size, and dataset size. While well-established for large language models, these relationships are emerging for large models in particle physics. As with language, empirical studies show that the performance scales as a power law. However, unlike natural language or image domains, fundamental physics has high-fidelity simulators that produce synthetic data cheaply. This favors scaling regimes where additional data is cheaper than additional parameters, and allows the pretraining dataset itself to be engineered to influence the scaling. For the task of classifying hadronic jets produced in collisions of high-energy particle beams, we show that the scaling behavior can be engineered towards requiring more data rather than larger models by inclusion of pretraining data which is more diverse and better aligned with the downstream classification task.
- Abstract(参考訳): ニューラルスケーリング法則は、計算、モデルサイズ、データセットサイズにおけるパワー則としてモデルパフォーマンスがどのように改善されるかを記述する。
大規模言語モデルではよく確立されているが、これらの関係は粒子物理学の大規模モデルでは現れている。
言語と同様に、実証的な研究は、パフォーマンスは権力の法則としてスケールしていることを示している。
しかし、自然言語や画像領域とは異なり、基礎物理学は合成データを安価に生成する高忠実度シミュレータを持っている。
これにより、追加データが追加パラメータよりも安くなり、事前トレーニングデータセット自体がスケーリングに影響を与えるようにエンジニアリングできるスケーリングレシエーションが好まれる。
高エネルギー粒子ビームの衝突によるハドロンジェットの分級作業において, より多様性があり, 下流の分級作業に適合した事前学習データを含めることで, より大きなモデルではなく, より多くのデータを必要とするようにスケーリング挙動を設計できることが示唆された。
関連論文リスト
- Scaling Laws of Global Weather Models [57.27583619011988]
本稿では,モデル性能(検証損失)とモデルサイズ,データセットサイズ,計算予算の3つの主要な要因について検討する。
様々なモデルにおいて、Auroraは最も強力なデータスケーリングの挙動を示す。
我々の計算-最適分析は、固定された計算予算の下で、長いトレーニング期間にリソースを割り当てると、モデルサイズの増加よりもパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2026-02-26T12:57:38Z) - Neural Scaling Laws for Boosted Jet Tagging [0.22399170518036912]
計算のスケーリングは、モデルキャパシティとデータセットサイズを共同で増加させることで、現代の機械学習におけるパフォーマンスの主要な要因となります。
計算の最適スケーリング法則を導出し,計算量の増加によって一貫したアプローチが可能な有効な性能限界を同定する。
次に、入力特徴と粒子乗法の選択により、スケーリング係数と性能限界がどう変化するかを検討する。
論文 参考訳(メタデータ) (2026-02-17T18:13:01Z) - Scaling Laws for Pre-training Agents and World Models [22.701210075508147]
エンボディエージェントの性能は、モデルパラメータ、データセットサイズ、計算量を増やして改善されている。
本稿では,これらの課題におけるスケールの役割を,より正確に評価する。
論文 参考訳(メタデータ) (2024-11-07T04:57:40Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - A Tale of Tails: Model Collapse as a Change of Scaling Laws [11.6055501181235]
私たちは、合成データがトレーニングコーパスに導入される必然的な体制において、スケーリング法はどのように変化するのか?
スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。
我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。
論文 参考訳(メタデータ) (2024-02-10T21:06:34Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。