論文の概要: BLADE: Scalable Bi-level Adaptive Data Selection for LLM Training
- arxiv url: http://arxiv.org/abs/2606.18650v1
- Date: Wed, 17 Jun 2026 03:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.990209
- Title: BLADE: Scalable Bi-level Adaptive Data Selection for LLM Training
- Title(参考訳): BLADE: LLMトレーニングのためのスケーラブルな2レベル適応データ選択
- Authors: Jiaxing Wang, Deping Xiang, Jin Xu, Zirui Liu, Zicheng Zhang, Guoqiang Gong, Jun Fang, Chao Liu, Pengzhang Liu, Tongxuan Liu, Ke Zhang, Qixia Jiang,
- Abstract要約: データ選択のためのヘシアンフリーフレームワークBLADE(Bi-Level Adaptive Data sElection)を提案する。
BLADEは、インフルエンスベースの手法に基づく二段階最適化問題を、ペナル化された単一レベル目的として再定義する。
効率的なオンラインバッチ選択のために、BLADEをメモリレスランダム化ブロックコーディネートFrank-Wolfeアルゴリズムとしてインスタンス化する。
- 参考スコア(独自算出の注目度): 34.64488220249771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Model (LLM) datasets scale to trillions of tokens, data selection has emerged as a critical frontier to filter out uninformative noise and construct adaptive learning trajectories. Beyond static heuristic filtering, advanced data selection methods for LLM training largely follow two paradigms, each with fundamental limitations. Influence-based methods provide principled bi-level objectives but require intractable inverse-Hessian computations, while excess-loss methods are computationally efficient but rely on a static reference model that becomes misaligned with the evolving proxy model during training. We propose BLADE (Bi-Level Adaptive Data sElection), a Hessian-free framework for data selection. BLADE reformulates the bi-level optimization problem underlying influence-based methods as a penalized single-level objective via Lagrange multipliers, avoiding inverse-Hessian computation while revealing a principled connection to excess-loss based data selection. The resulting objective recovers an excess-loss form but replaces the static reference model with a dynamic one that stays synchronized with training. Theoretically, we prove that this penalized formulation guarantees first-order convergence. For efficient online batch selection, we instantiate BLADE as a memoryless randomized block-coordinate Frank-Wolfe algorithm. Extensive experiments show that BLADE consistently outperforms state-of-the-art data selection baselines, providing a practical recipe for LLM training.
- Abstract(参考訳): 大規模言語モデル(LLM)データセットが数十兆のトークンにスケールするにつれ、データ選択は非形式的なノイズを除去し、適応的な学習軌跡を構築するための重要なフロンティアとして登場した。
静的ヒューリスティックフィルタリング以外にも、LLMトレーニングのための高度なデータ選択手法は、2つのパラダイムに大きく従っている。
インフルエンサーベースの手法は、原則化された二段階の目的を提供するが、難解な逆ヘシアン計算を必要とする一方で、余剰の手法は計算効率が良いが、訓練中に進化するプロキシモデルと不一致となる静的参照モデルに依存している。
データ選択のためのヘシアンフリーフレームワークBLADE(Bi-Level Adaptive Data sElection)を提案する。
BLADEは、インフルエンスベースの手法に基づく二段階最適化問題を、ラグランジュ乗算器によるペナル化単一レベル目的として再定義し、逆・ヘッセン計算を避けながら、過剰なロスベースのデータ選択への原則化された接続を明らかにする。
結果として得られた目的は余剰な形式を回復するが、静的参照モデルをトレーニングと同期した動的モデルに置き換える。
理論的には、この罰則の定式化が一階収束を保証することを証明している。
効率的なオンラインバッチ選択のために、BLADEをメモリレスランダム化ブロックコーディネートFrank-Wolfeアルゴリズムとしてインスタンス化する。
広範囲にわたる実験により、BLADEは最先端のデータ選択ベースラインを一貫して上回り、LLMトレーニングの実践的なレシピを提供することが示された。
関連論文リスト
- BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining [28.32850393150554]
BLISSは、外部の事前訓練されたオラクルモデルに頼ることなく、スクラッチから完全に高速に動作する軽量なデータ選択方法である。
C4データセットの選択したサブセット上で、410M/1B/2.8B PythiaとLLaMA-0.5Bモデルを事前学習することでBLISSを検証する。
BLISSは最先端の手法と同じ性能に達すると1.7倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-10-07T15:42:33Z) - LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - LAMDAS: LLM as an Implicit Classifier for Domain-specific Data Selection [32.35731324386828]
大きな言語モデル(LLM)を特定のドメインに適用することは、しばしば重大なボトルネックに直面します。
類似性に基づく直接最適化手法として分類された既存の手法は、これらの目標を同時に達成するのに苦労する。
LAMDASは,学習済みLLM自体を暗黙の分類器として活用する新しい手法である。
論文 参考訳(メタデータ) (2025-09-08T10:30:58Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [45.64632177923583]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。
未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。
我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文 参考訳(メタデータ) (2024-10-09T17:58:12Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。