論文の概要: Internal Data Repetition Destroys Language Models
- arxiv url: http://arxiv.org/abs/2606.24998v1
- Date: Tue, 23 Jun 2026 16:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.088303
- Title: Internal Data Repetition Destroys Language Models
- Title(参考訳): 内部データ繰り返しは言語モデルを破壊する
- Authors: Jessica Chudnovsky, Joshua Kazdan, Noam Levi, Rylan Schaeffer, Yegor Denisov-Blanch, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho,
- Abstract要約: 言語モデルは、高品質なトレーニングデータを使い果たし、積極的に重複したコーパスでさえ、ある程度の繰り返しを保っている。
我々は,コンピュータ等価利得とコンピュータ等価損失を報告するために,適合した非繰り返しスケーリング法を用いて,チンチラ時代の繰り返しを再考する。
- 参考スコア(独自算出の注目度): 28.65775073109903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are running out of high-quality training data, and even aggressively deduplicated corpora retain some amount of repetition. Earlier controlled studies predated Chinchilla-style scaling laws and could only measure the cost of repetition indirectly. We revisit repetition in the Chinchilla era, using a fitted no-repetition scaling law to report Compute-Equivalent Gain and Compute-Equivalent Loss. We show that under this modernized paradigm, repetition damage is systematic in three ways. First, holding compute allocated to repeated data constant, eval loss peaks at an intermediate repeat count $\Rep$; repeating a moderately sized subset a moderate number of times damages performance more than repeating a large subset a few times or a small subset many times. Second, the location of this peak is well-fit by a power law in model size; this scaling law reveals that the most damaging number of repeated data grows more quickly than compute. Finally, when repeated documents consume 10\% of the FLOPs budget in a controlled exact-document repetition setting, the compute-equivalent loss can be large: on FineWeb-Edu-Dedup, the most damaging repeat count for a Qwen3-style 344M-parameter model at $\OT=1$ matches the loss of a no-repetition run using 67% of the FLOPs. We demonstrate that these phenomena are not language-model-specific, and can be analytically understood in a simple statistical model: a misspecified linear regression with verbatim duplicates reproduces the same qualitative loss peak, quantifying how such peaks can arise from a statistical tradeoff between memorization and generalization. Our findings add precision to the study of duplication in language models, allowing practitioners to quantify the wasted compute incurred by the presence and repeat structure of duplicates in pretraining corpora.
- Abstract(参考訳): 言語モデルは、高品質なトレーニングデータを使い果たし、積極的に重複したコーパスでさえ、ある程度の繰り返しを保っている。
初期の規制された研究は、チンチラスタイルのスケーリング法に先行しており、間接的に反復のコストを計測するしかなかった。
我々は,コンピュータ等価利得とコンピュータ等価損失を報告するために,適合した非繰り返しスケーリング法を用いて,チンチラ時代の繰り返しを再考する。
この近代化されたパラダイムの下では、繰り返しのダメージは3つの方法で体系化されている。
まず、繰り返しデータ定数に割り当てられた計算を保持すると、eval損失ピークを中間繰り返し数$\Rep$で保持する。
第二に、このピークの位置はモデルサイズにおけるパワー法則によって適している; このスケーリング法則は、最も損傷の大きい繰り返しデータの数が計算よりも速く増加することを明らかにしている。
FineWeb-Edu-Dedupでは、Qwen3スタイルの344Mパラメータモデルにおいて、$\OT=1$で、FLOPsの67%を使用した非繰り返し実行の損失に最もダメージを与える。
我々はこれらの現象が言語モデル固有のものではなく、単純な統計モデルで解析的に理解することができることを実証する: 動詞の重複を持つ不特定線形回帰は同じ定性的損失ピークを再現し、記憶と一般化の間の統計的トレードオフからそのようなピークがどのように生じるかを定量化する。
本研究は,言語モデルにおける重複の研究に精度を付加し,事前学習コーパスにおける重複の存在と繰り返し構造から得られた無駄計算の定量化を可能にした。
関連論文リスト
- Scale Dependent Data Duplication [29.59812821602787]
セマンティック複製は、トレーニング中に正確に複製されるように、ますます機能します。
EmbeddingGemma-300mを使って、1億9200万のFineWeb-Edu-Dedupドキュメントを埋め込んだ。
我々は,事前学習コーパスの意味的特異性に制限があるため,実践者が期待するスケーリングから逸脱を推定できる明示的なスケーリング法を導出する。
論文 参考訳(メタデータ) (2026-02-18T05:22:58Z) - Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization [18.24882084542254]
本稿では,この誤差を90%以上削減する再構成手法を提案する。
キャリブレーションデータを自己生成する戦略は、再構築と一般化のトレードオフを軽減することができる。
論文 参考訳(メタデータ) (2024-06-21T05:13:34Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Scaling Data-Constrained Language Models [133.2083255645999]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Learning to Break the Loop: Analyzing and Mitigating Repetitions for
Neural Text Generation [41.3948101212288]
本稿では,反復トークンの確率と,その文脈における過去の繰り返しとの関係について検討する。
擬似反復データから文レベルの繰り返しの確率をペナルティ化する訓練手法を提案する。
論文 参考訳(メタデータ) (2022-06-06T05:51:12Z) - Scaling Laws and Interpretability of Learning from Repeated Data [4.3242395495523525]
データの大部分がユニークだが、そのごく一部が何度も繰り返されるモデル群をトレーニングします。
また,2重降下現象が出現し,連続したデータによってテスト損失が増加し,トレーニングの途中で増加することが示唆された。
予測可能な繰り返し周波数の範囲は、驚くほどパフォーマンスが低下する。
論文 参考訳(メタデータ) (2022-05-21T02:14:27Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。