Fugu-MT 論文翻訳(概要): HARP: Efficient Data Selection for Finetuning Large Language Models

論文の概要: HARP: Efficient Data Selection for Finetuning Large Language Models

arxiv url: http://arxiv.org/abs/2606.07690v1
Date: Fri, 05 Jun 2026 06:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.280821
Title: HARP: Efficient Data Selection for Finetuning Large Language Models
Title（参考訳）: HARP:大規模言語モデルを微調整するための効率的なデータ選択
Authors: Ning Wang, Zhengxin Zhang, Maosen Tang, Yitang Gao, Claire Cardie, Sainyam Galhotra,
Abstract要約: データ選択の微調整には、2つの競合する目標のバランスが必要だ。提案する階層型アクティブ・リージョン・プルーニング(HARP, Hierarchical Active Region Pruning)は, 選択コストを低減しつつ下流のアライメントを維持する効率的な列車ベースセレクタである。
参考スコア（独自算出の注目度）: 17.765191025899252
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finetuning data selection requires balancing two competing goals: selecting examples that improve the downstream objective, and doing so without repeatedly finetuning models. Train-free selectors are scalable but rely on proxies such as embedding similarity or clustering, which may not match the target objective. Train-based selectors better reflect downstream utility through gradient signals, subset evaluation, or Shapley attribution, but require many costly train--evaluate iterations. We propose Hierarchical Active Region Pruning (HARP), an efficient train-based selector that preserves downstream alignment while reducing selection cost. HARP organizes the training pool into a node--leaf hierarchy, evaluates only representative leaves, and infers unmeasured utilities with empirical Bayes posteriors. It then selects data using two complementary envelopes: HARP-C, which conservatively controls redundancy, and HARP-E, which additively rewards complementary regions. We theoretically show that, under local smoothness and bounded estimation error, HARP controls selection error while reducing train--evaluate cost. We further validate that HARP variants achieve the best result and outperform the strongest baseline by up to $+8.9$ points, while using roughly $7\times$ fewer training examples.
Abstract（参考訳）: データ選択の微調整には、2つの競合する目標のバランスが必要だ。トレインフリーセレクタはスケーラブルだが、類似性の埋め込みやクラスタリングのようなプロキシに依存している。列車ベースのセレクタは、勾配信号、サブセット評価、あるいはShapley属性を通じて下流のユーティリティをよりよく反映するが、多くのコストを要する。提案する階層型アクティブ・リージョン・プルーニング(HARP, Hierarchical Active Region Pruning)は, 選択コストを低減しつつ下流のアライメントを維持する効率的な列車ベースセレクタである。 HARPはトレーニングプールをノードリーフ階層に整理し、代表葉のみを評価し、実証的なベイズ後方で未測定のユーティリティを推測する。次に、保守的に冗長性を制御するHARP-Cと補完領域を付加的に報酬するHARP-Eの2つの補完エンベロープを使用してデータを選択する。理論的には、局所的な滑らかさと有界推定誤差の下で、HARPは列車コストを低減しつつ選択誤差を制御する。さらに、HARPの変種が最高の結果を達成することを検証し、より少ないトレーニング例を約7\times$で使用しながら、最大8.9ドルポイントで最強のベースラインを上回ります。

関連論文リスト

From Instance Selection to Fixed-Pool Data Recipe Search for Supervised Fine-Tuning [19.659110958894335]
Supervised Fine-tuning (SFT) データ選択は、一般的にインスタンスランキングとして定式化される。効果的なSFTトレーニングサブセットは、しばしば順序づけられたキュレーションレシピによって生成される。キャッシュされたタスク、データ、モデル側信号に基づいて、固定プールの実体化を分離する2層解法であるAutoSelectionを導入する。
論文参考訳（メタデータ） (2026-05-13T03:27:21Z)
Ada-RS: Adaptive Rejection Sampling for Selective Thinking [8.760287445955045]
大規模言語モデル(LLM)は、コストとレイテンシに敏感な設定でますますデプロイされている。ツールを用いたLCMの選択的思考と適応型リジェクションサンプリング(Ada-RS)の導入について検討する。 Ada-RSは、適応的な長さの報酬で複数のサンプリング完了をスコアし、高い回帰候補のみを保持するために拒絶サンプリングを適用する。
論文参考訳（メタデータ） (2026-02-23T05:20:15Z)
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文参考訳（メタデータ） (2025-02-24T04:22:57Z)
Best Policy Learning from Trajectory Preference Feedback [11.896067099790962]
推論ベースの強化学習(PbRL)は、より堅牢な代替手段を提供する。本稿では, PbRLにおける最適政策識別問題について検討し, 生成モデルの学習後最適化を動機とした。本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文参考訳（メタデータ） (2025-01-31T03:55:10Z)
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T11:47:56Z)
Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
ヒューマンフィードバック(RLHF)からの強化学習を用いた大規模言語モデル(LLM)のアライメント状況の均一なサンプリングは、最適政策と一定の準最適差を被る政策につながる可能性があることを示す。我々は,最も不確実なコンテキストに対する嗜好を反復的に収集するアルゴリズムである$textttAPO$を提案する。
論文参考訳（メタデータ） (2024-02-16T08:19:34Z)
Selecting Learnable Training Samples is All DETRs Need in Crowded Pedestrian Detection [72.97320260601347]
混雑した歩行者検出では, サンプル選択法が不適切であるため, DETRの性能は相変わらず不満足である。制約誘導ラベル割り当てスキーム(CGLA)からなる群集歩行者のサンプル選択を提案する。実験の結果,提案したSSCPは推論のオーバーヘッドを発生させることなく,ベースラインを効果的に改善することがわかった。
論文参考訳（メタデータ） (2023-05-18T08:28:01Z)
Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。 Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文参考訳（メタデータ） (2023-01-02T07:13:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。