論文の概要: Spokes: Optimizing for Diverse Pretraining Data Selection
- arxiv url: http://arxiv.org/abs/2606.15216v1
- Date: Sat, 13 Jun 2026 09:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.058888
- Title: Spokes: Optimizing for Diverse Pretraining Data Selection
- Title(参考訳): Spokes: さまざまな事前トレーニングデータ選択の最適化
- Authors: Clarence Lee, Yejin Choi, Luke Zettlemoyer, Pang Wei Koh, Hai Leong Chieu,
- Abstract要約: 本稿ではG-Vendiスコアに基づく確率的多様化フレームワークを提案する。
提案手法は, ランダムサンプリングにより得られたサブセットよりも, かなり多様なサブセットを生成する。
我々はFineWebとDCLMのアプローチを評価し、既存の手法を一貫して上回ります。
- 参考スコア(独自算出の注目度): 82.66872118512403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diversity plays a critical role in data selection, improving performance under fixed data budgets by reducing redundancy and repetition. However, optimizing for diversity is inherently challenging, as it is a set-level property that depends on interactions between data points rather than individual examples. As a result, existing approaches typically rely on proxies or approximations, which often fail to ensure sufficiently diverse subsets. In this work, we directly optimize diversity by introducing a probabilistic diversification framework based on the G-Vendi score, optimized via exponentiated gradient descent. Our method produces subsets that are substantially more diverse than those obtained via random sampling, achieving a +489 increase in G-Vendi score on a 500k-sample subset. We evaluate our approach on FineWeb and DCLM, where it consistently outperforms existing methods. Notably, SPOKES (diversity-only) improves average downstream performance by +0.4 and +0.5 points over random sampling on DCLM and FineWeb, respectively. More importantly, jointly optimizing for both quality and diversity yields the strongest results: SPOKES achieves gains of +1.5 and +1.4 points on DCLM and FineWeb, outperforming all baselines, including semantic deduplication and quality filtering.
- Abstract(参考訳): 多様性はデータ選択において重要な役割を担い、冗長性と反復性を低減し、固定データ予算下でのパフォーマンスを向上させる。
しかし、個々の例ではなく、データポイント間の相互作用に依存するセットレベルプロパティであるため、多様性を最適化することは本質的に困難である。
結果として、既存のアプローチは一般的にプロキシや近似に依存しており、しばしば十分に多様なサブセットを保証するのに失敗する。
本研究では,G-Vendiスコアに基づく確率的多様化フレームワークを導入し,指数勾配勾配を最適化することによって,直接的に多様性を最適化する。
提案手法は,500k-sample サブセット上で G-Vendi スコアが+489 増加し,ランダムサンプリングにより得られたサブセットよりもかなり多彩なサブセットを生成する。
我々はFineWebとDCLMのアプローチを評価し、既存の手法を一貫して上回ります。
特に、SPOKES(ダイバーシティのみ)は、DCLMとFineWebのランダムサンプリングにおいて、平均ダウンストリーム性能を+0.4および+0.5ポイント向上させる。
SPOKES は DCLM と FineWeb で +1.5 と +1.4 のゲインを獲得し、セマンティックデデューズや品質フィルタリングを含むすべてのベースラインを上回ります。
関連論文リスト
- Exploring the Heterogeneity of Tabular Data: A Diversity-aware Data Generator via LLMs [7.355858495660162]
DATE(Diversity-Aware Tabular data gEnerator)は、文脈内学習のための高品質で分散的な例を作成するフレームワークである。
DATEはLarge Language Models(LLM)を使用して、分割された分布の多様性をフィードバックとして決定木推論で探索し、各サブセットに対して高品質なラベル付きデータを生成する。
DATEは平均23.75%のエラー率で100のデータしか生成しない。
論文 参考訳(メタデータ) (2025-12-26T08:02:51Z) - Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文 参考訳(メタデータ) (2025-04-29T11:13:18Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Diversity-oriented Data Augmentation with Large Language Models [9.548912625579947]
我々はtextbfunderline Di-textbfunderline 指向データ textbfunderlineAugmentation framework (textbfDoAug) を提案する。
具体的には、多様性指向の微調整手法を用いて、多彩なパラフレーズを生成することでテキストデータセットを増強できる多彩なパラフレーズとしてLLMを訓練する。
その結果, ラベルの整合性を維持しつつ, 微調整LDMオーグメンタにより多様性が向上し, 下流タスクの堅牢性と性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-17T11:00:40Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - Controllable Prompt Tuning For Balancing Group Distributional Robustness [53.336515056479705]
グループ間で優れたパフォーマンスを実現するための最適化スキームを導入し、それらの性能を著しく犠牲にすることなく、全員に良い解決策を見出す。
本稿では,制御可能なプロンプトチューニング(CPT)を提案する。
突発的相関ベンチマークでは, 変換器と非変換器の両アーキテクチャ, および非モーダルおよびマルチモーダルデータにまたがって, 最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-03-05T06:23:55Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。