論文の概要: Which Pairs to Compare for LLM Post-Training?
- arxiv url: http://arxiv.org/abs/2606.19607v1
- Date: Wed, 17 Jun 2026 21:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.547988
- Title: Which Pairs to Compare for LLM Post-Training?
- Title(参考訳): LLMポストトレーニングに比較すべきペアは何か?
- Authors: Jiangze Han, Vineet Goyal, Will Ma,
- Abstract要約: 本稿では,選好に基づくポストトレーニングにおいて,どのペアを比較すべきかを検討する。
サンプル設計問題として比較キュレーションを定式化し、最終方針の品質による設計評価を行う。
合成設定と言語モデル後学習ベンチマークの実験により,提案設計は共通比較選択よりもサンプル効率を一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 8.998543739618077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based post-training has become a central paradigm for aligning language models. A common data-collection strategy is to generate a small set of completions for each prompt and label the resulting comparison pairs. However, human preference labels are often much more expensive than generating additional completions, suggesting a different use of the same labeling budget: generate a larger pool of completions, but label only the most informative comparison pairs. This paper studies which pairs should be compared in preference-based post-training. We formulate comparison curation as a sampling-design problem and evaluate designs by the quality of the final policy under the preference-based post-training objective. We instantiate this framework for Direct Preference Optimization (DPO), analyzing how the choice of labeled pairs propagates through DPO training to downstream policy performance. Our main results provide matching upper and lower bounds on the post-training optimality gap of the DPO-trained policy. The bounds show that comparison selection affects downstream performance through a single design-dependent information matrix, which links label allocation to parameter estimation error and policy suboptimality. This yields an explicit optimization criterion for budgeted comparison curation and motivates practical sampling designs for selecting informative pairs from large generated completion pools. Experiments on synthetic settings and language-model post-training benchmarks show that the proposed designs consistently improve sample efficiency over common comparison-selection heuristics.
- Abstract(参考訳): 嗜好ベースのポストトレーニングは、言語モデルを整合させるための中心的なパラダイムとなっている。
一般的なデータ収集戦略は、各プロンプトに対して小さな補完セットを生成し、結果として得られる比較ペアにラベルをつけることである。
しかしながら、人間の嗜好ラベルは、追加の完了を発生させるよりもはるかに高価であり、同じラベルの予算の異なる使用を示唆する: より大きな完成のプールを生成するが、ラベルは最も有意義な比較ペアのみを生成する。
本稿では,選好に基づくポストトレーニングにおいて,どのペアを比較すべきかを検討する。
サンプル設計問題として比較キュレーションを定式化し、選好に基づく後学習目標の下で最終方針の品質による設計を評価する。
我々はこのフレームワークをDPO(Direct Preference Optimization)のためにインスタンス化し、ラベル付きペアの選択がDPOトレーニングを通じて下流の政策パフォーマンスにどのように伝播するかを分析する。
本研究の主な成果は, DPO 学習方針の学習後最適性ギャップの上限値と下限値との整合性である。
このバウンダリは,ラベル割り当てをパラメータ推定誤差と政策準最適性にリンクする単一設計依存情報行列を用いて,比較選択が下流性能に影響を与えることを示す。
これにより、予算化された比較キュレーションのための明示的な最適化基準が得られ、大きな生成された完了プールから情報ペアを選択するための実用的なサンプリング設計が動機となる。
合成設定と言語モデル後学習ベンチマークの実験により,提案設計は共通比較選択ヒューリスティックよりもサンプル効率を一貫して改善することが示された。
関連論文リスト
- Threshold-Guided Optimization for Visual Generative Models [16.556017381410943]
視覚生成モデルと人間のフィードバックを整合させるためのしきい値誘導フレームワークを提案する。
提案手法は,従来手法よりも常に好みのアライメントを改善する。
これらの結果は、我々の閾値誘導フレームワークを、ペア比較なしで視覚的生成モデルを整列する単純な代替手段として位置づけている。
論文 参考訳(メタデータ) (2026-05-06T08:59:16Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - Permutative Preference Alignment from Listwise Ranking of Human Judgments [40.23480751285947]
我々はNDCGを異なる代理損失で近似することで、エンドツーエンドのアライメントアルゴリズムを開発する。
我々は,NDCGに基づく手法により,B-T法よりも効率よくランキング精度を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。