論文の概要: RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories
- arxiv url: http://arxiv.org/abs/2606.18663v1
- Date: Wed, 17 Jun 2026 04:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.995229
- Title: RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories
- Title(参考訳): RegMix-D: プロキシトレーニング軌道による動的データ混合
- Authors: Kaiyan Zhao, Zhongtao Miao, Akiko Aizawa, Yoshimasa Tsuruoka,
- Abstract要約: RegMixのような既存のメソッドは、小さなプロキシランに回帰モデルを適用することで、単一の静的ミックスを選択する。
動的混合に対するRegMixのシンプルな拡張であるRegMix-Dを提案する。
RegMix-Dは、プロキシ効率を維持しながら、13の下流タスクでRegMixとDoReMiを継続的に改善する。
- 参考スコア(独自算出の注目度): 26.65097170527164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data mixture selection is critical for Large Language Model pretraining. Existing methods such as RegMix select a single static mixture by fitting a regression model on small-scale proxy runs. We propose RegMix-D, a simple extension of RegMix to dynamic mixing. Our key observation is that proxy runs produce not only endpoint losses, but also full loss trajectories, which can be used to further improve data mixture. By training regression model on these trajectories, we can predict optimal mixtures at multiple training stages. RegMix-D supports two deployment modes: an offline variant that generates a complete mixture schedule before target training, and an online variant that adapts the mixture during training using observed loss. Experiments on 25B tokens of the Pile dataset with a 1B parameter target model show that RegMix-D consistently improves over RegMix and DoReMi across 13 downstream tasks while remaining proxy-efficient: it surpasses RegMix even with only 128 proxy models (25% of RegMix's proxy compute budget).
- Abstract(参考訳): 大規模言語モデルの事前学習にはデータ混合選択が不可欠である。
RegMixのような既存のメソッドは、小さなプロキシランに回帰モデルを適用することで、単一の静的ミックスを選択する。
動的混合に対するRegMixのシンプルな拡張であるRegMix-Dを提案する。
私たちのキーとなる観察は、プロキシの実行はエンドポイントの損失だけでなく、完全な損失軌跡も生成します。
これらの軌道上の回帰モデルを訓練することにより、複数の訓練段階において最適な混合を予測できる。
RegMix-Dは2つのデプロイモードをサポートしている。ターゲットトレーニングの前に完全な混合スケジュールを生成するオフライン変種と、観察された損失を使用してトレーニング中に混合を適応するオンライン変種だ。
1BパラメータターゲットモデルによるPileデータセットの25Bトークンの実験によると、RegMix-Dは13の下流タスクでRegMixとDoReMiよりも一貫して改善され、プロキシ効率は保たれている。
関連論文リスト
- FastMix: Fast Data Mixture Optimization via Gradient Descent [55.109758242985556]
Fastmixは、単一のプロキシモデルのみをトレーニングしながら、データミックスの検出を自動化する新しいフレームワークである。
混合比の最適化は、均一なソースサンプリングの下で、ソース当たりの損失重みを割り当てることと数学的に等価であることを示す。
FASTmixはベースラインを上回り、事前トレーニングや後トレーニングで検索コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-06-12T21:46:57Z) - Mix, Don't Tune: Bilingual Pre-Training Outperforms Hyperparameter Search in Data-Constrained Settings [24.462817377406754]
データ制約領域における言語モデルの事前学習を改善する方法について述べる。
私たちは低資源のターゲットとしてアラビア語を使い、補助として英語を使います。
検証損失に関するユニークなターゲットデータと、ダウンストリームタスクの精度に関する2-13$times$とで、パフォーマンスを2--3$times$と同等に向上します。
論文 参考訳(メタデータ) (2026-05-13T09:17:51Z) - Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time [51.671620992989375]
OP-Mixは、言語モデルトレーニングライフサイクル全体にわたって動作するデータミキシングアルゴリズムである。
プレトレーニングでは、OP-Mixは平均パープレキシティの6.3%を混合することなくトレーニングを改善できる。
連続学習では、OP-Mixは再学習とオンライン蒸留の両方のパフォーマンスを66%、全体の95%で比較した。
論文 参考訳(メタデータ) (2026-05-13T02:29:19Z) - Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training [16.022416196267937]
本稿では,モデルマージを利用して最適なデータ比を推定する新しいフレームワークであるDeouple Searching from Training Mix (DeMix)を提案する。
DeMixは,検索効率,精度,効率のトレードオフを破り,検索コストの低いベンチマーク性能と最適混合が得られることを示す。
論文 参考訳(メタデータ) (2026-01-31T14:27:46Z) - MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging [72.00014675808228]
textbfMixは、重みをマージするモデルを高忠実で低コストなパフォーマンスプロキシとして再利用することで、最適なデータ混合比を決定する。
8B と 16B のパラメータを持つモデルの実験では、MergeMix が完全なマニュアルチューニングに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-01-25T14:31:57Z) - RegMix: Data Mixture as Regression for Language Model Pre-training [40.45464495981735]
本稿では,レグレッションタスクとして定式化することで,ハイパフォーマンスなデータ混合物を自動的に識別するRegMixを提案する。
RegMixは、様々なデータ混合物で多くの小さなモデルを訓練し、回帰を使って目に見えない混合物のパフォーマンスを予測し、予測された最良の混合を適用して、桁違いの計算量で大規模モデルを訓練する。
論文 参考訳(メタデータ) (2024-07-01T17:31:03Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。