論文の概要: Small Initialization Matters for Large Language Models
- arxiv url: http://arxiv.org/abs/2606.17945v1
- Date: Tue, 16 Jun 2026 13:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.466287
- Title: Small Initialization Matters for Large Language Models
- Title(参考訳): 大規模言語モデルのための小さな初期化事項
- Authors: Liangkai Hang, Junjie Yao, Zhiyu Li, Feiyu Xiong, Hongkang Yang, Zhi-Qin John Xu,
- Abstract要約: パラメータ初期化は訓練の遺伝子様決定因子であり、特にモデル能力の指標であることを示す。
スケールの縮小はプレトレーニングを継続的に改善し、推論要求タスクに最大の利益をもたらす。
小規模な初期化の利点を抑えるために広く使われている2つの経験的設定を同定し、その緩和が適切なスケーリングを回復することを示す。
- 参考スコア(独自算出の注目度): 28.726627416564842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models provide a tractable system for asking how intelligence itself emerges, rather than only how LLMs can be engineered. Although progress is usually attributed to scale, data and architecture, we show that parameter initialization is a gene-like determinant of training and, in particular, of model capacity. Reducing the initialization scale consistently improves pretraining, with the largest gains on reasoning-demanding tasks. We identify two widely used empirical settings that restrain the advantage of small initialization, and show how relaxing them restores favorable scaling. We further uncover a critical initialization that balances the reasoning and training. Mechanistically, small initialization drives a distinct developmental trajectory: parameters first condense into low-complexity structures and later expand into richer representations, giving concrete form to the idea that compression is intelligence. Token-level analyses show that the gains concentrate on non-trivial, context-constrained predictions rather than all tokens uniformly. These results motivate a simple $γ$-initialization rule: expose initialization rage as an explicit knob and use small initialization by default, an almost cost-free intervention that improves pretraining and strengthens reasoning across model scales.
- Abstract(参考訳): 大規模言語モデルは、LLMのエンジニアリング方法だけでなく、インテリジェンス自体がどのように出現するかを問う、抽出可能なシステムを提供する。
進行は、通常、スケール、データ、アーキテクチャに起因しているが、パラメータの初期化は、訓練、特にモデルキャパシティの遺伝子のような決定因子であることを示す。
初期化スケールの削減は、推論要求タスクの最大の増加とともに、事前トレーニングを継続的に改善する。
小規模な初期化の利点を抑えるために広く使われている2つの経験的設定を同定し、その緩和が適切なスケーリングを回復することを示す。
さらに、推論とトレーニングのバランスをとる重要な初期化を明らかにします。
パラメータはまず低複雑さ構造に凝縮し、後によりリッチな表現へと拡張し、圧縮は知性であるという考えに具体的な形を与える。
トークンレベルの分析は、全てのトークンが一様ではなく、非自明で文脈に制約のある予測に集中していることを示している。
これらの結果は単純な$γ$初期化規則を動機付けている: 初期化怒りを明示的なノブとして公開し、デフォルトでは小さな初期化を使用する。
関連論文リスト
- A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning [51.505728136705564]
我々は, 対角線ネットワークにおけるプレトレーニングファインチューニングパイプラインの解析理論を開発した。
異なる初期化選択により、ネットワークは4つの異なる微調整レジームに分類される。
以前の階層の縮小により、ネットワークは機能の再利用と洗練を両立することができ、より優れた一般化を実現している。
論文 参考訳(メタデータ) (2026-02-23T17:19:33Z) - Making Foundation Models Probabilistic via Singular Value Ensembles [56.4174499669573]
ファンデーションモデルは機械学習において支配的なパラダイムとなり、大規模な事前学習を通じて様々なタスクにまたがる顕著なパフォーマンスを実現している。
不確実性を定量化し、独立したモデルのアンサンブルを訓練する標準的なアプローチは、アンサンブルサイズと線形にスケールする禁制的な計算コストを発生させる。
本稿では,単純だが強力なコア仮定に基づいて,パラメータ効率の高い暗黙アンサンブル手法であるSVEを提案する。
本研究では,SVEの不確かさの定量化が,基本モデルのパラメータ数を1%以下に増加させながら,明示的な深層アンサンブルに匹敵することを示す。
論文 参考訳(メタデータ) (2026-01-29T18:07:18Z) - Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [56.032091696552094]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - Do Larger Language Models Generalize Better? A Scaling Law for Implicit Reasoning at Pretraining Time [73.22651918134808]
この研究は、モデルサイズのスケーリングによる直感的効果を示し、言語モデル(LM)におけるスケーリングと推論の関係に関する新たな洞察を提供する。
我々は,実世界の大規模知識グラフの構造と分布を再現する合成暗黙のマルチホップ推論環境において,ゼロからLMを事前学習する。
次に、実世界の事前学習における暗黙的推論の単純化とみなすことができるマルチホップ推論を必要とする、グラフの欠落したエッジを完遂するLMの能力を評価する。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - An Analysis for Reasoning Bias of Language Models with Small Initialization [8.380004565348619]
大規模言語モデル(LLM)は、さまざまなタスクにまたがる例外的なパフォーマンスを示すことによって、自然言語処理に革命をもたらした。
本研究では,パラメータ初期化尺度がLLMの訓練行動とタスク嗜好に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2025-02-05T15:23:26Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。