論文の概要: Boosting Direct Preference Optimization with Penalization
- arxiv url: http://arxiv.org/abs/2606.12505v1
- Date: Wed, 10 Jun 2026 17:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.377889
- Title: Boosting Direct Preference Optimization with Penalization
- Title(参考訳): ペナライゼーションによる直接選好最適化の促進
- Authors: Pengwei Sun,
- Abstract要約: DPOP(Direct Preference Optimization with Penalization)は、DPOの単純な拡張であり、基準グレード応答に対するゲートペナルティによるベース優先損失を増大させる。
AlpacaEval 2.0では、DPOPはLlama-3-8b-itとGemma-2-9b-itの両方でDPO、SimPO、AlphaDPOよりも長さ制御された勝利率を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Offline preference optimization has become a practical substitute for reinforcement learning from human feedback, but pairwise objectives such as Direct Preference Optimization (DPO) and its variants use only the chosen and rejected responses stored in a static dataset. This leaves a useful signal unused: the response that the reference model itself would generate for the same prompt. We propose Direct Preference Optimization with Penalization (DPOP), a simple extension of DPO that augments the base preference loss with a gated penalty on reference-greedy responses. DPOP activates this penalty only when the current policy still assigns a lower likelihood to the preferred response than to the rejected response. On AlpacaEval 2.0, DPOP improves length-controlled win rate over DPO, SimPO, and AlphaDPO on both Llama-3-8b-it and Gemma-2-9b-it, achieving relative gains of 5.3\% and 4.4\% over baselines on the two models, respectively. Ablations further show that a SimNPO-style length-normalized penalty is stronger than NPO and token-level unlikelihood in this setting.
- Abstract(参考訳): オフライン選好最適化は、人間のフィードバックから強化学習を行うための実用的な代用となっているが、直接選好最適化(DPO)やその変種などは、静的データセットに格納された選択された応答と拒否された応答のみを使用する。
参照モデル自身が同じプロンプトのために生成する応答。
DPOの単純な拡張であるDPOP(Direct Preference Optimization with Penalization)を提案する。
DPOPはこのペナルティを、現在のポリシーが拒否された応答よりも優先応答に低い確率を割り当てている場合にのみ発動する。
AlpacaEval 2.0では、DPOPはLlama-3-8b-itとGemma-2-9b-itの両方でDPO、SimPO、AlphaDPOよりも長さ制御された勝利率を改善し、それぞれベースラインよりも5.3\%と4.4\%の相対的なゲインを達成する。
アブレーションにより、SimNPO型長正規化ペナルティはNPOよりも強く、この設定ではトークンレベルが異なっています。
関連論文リスト
- S-SPPO: Semantic-Calibrated Self-Play Preference Optimization [36.01916066772865]
本稿では,自己生成型ウインロースペアの学習によってポリシーを反復的に洗練する自己再生選好最適化(SPPO)を提案する。
本研究はSPPOにおける重要な不安定性を明らかにし,選択が過度に自信を持った勝利を意味的に区別不能な応答に割り当てる場合,最適化は政策の退化を招く。
Llama-3-8Bを用いたAlpacaEval 2.0ではS-SPPOは52.19%の勝利率と47.46%の勝利率を達成した。
論文 参考訳(メタデータ) (2026-06-01T02:06:58Z) - AdaDPO: Self-Adaptive Direct Preference Optimization with Balanced Gradient Updates [0.03999851878220877]
本稿では,DPOアルゴリズムの自己適応的変種を提案する。
AdaDPOは、好ましくない確率と好ましくない確率の勾配の等級を強制するために構築される。
損失レベルで純粋に動作するため、AdaDPOは既存の好みベースのアライメントパイプラインにドロップすることができる。
論文 参考訳(メタデータ) (2026-05-27T13:05:49Z) - Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering [5.568436850698628]
Sem-DPOは意味的一貫性を維持しながら、その単純さと効率を維持するDPOの亜種である。
本研究は,Sem-DPOが原文の有界近傍で学習のプロンプトを継続していることを示す。
3つの標準テキスト-画像のプロンプト-最適化ベンチマークと2つの言語モデルにおいて、Sem-DPOはDPOよりもCLIPの類似度が8-12%高く、5-9%高いHPSv2.1、PickScore)。
論文 参考訳(メタデータ) (2025-07-27T05:20:13Z) - BPO: Revisiting Preference Modeling in Direct Preference Optimization [13.243174453617064]
DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:21:01Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Direct Preference Optimization with an Offset [58.7977683502207]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。