論文の概要: Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings
- arxiv url: http://arxiv.org/abs/2606.19744v1
- Date: Thu, 18 Jun 2026 03:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.628288
- Title: Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings
- Title(参考訳): 一様フォーミュラフォーミングを超えて: 順序的直接選好最適化における選好設定に関する一検討
- Authors: Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim,
- Abstract要約: 4つの選好設定における逐次直接選好最適化について検討する。
シーケンシャルなDPOは単一の忘れパターンを生成しない。
メカニカル診断では、Stage2グラデーションとアダプタの更新は、すべての設定で以前の目的とほぼ直交している。
- 参考スコア(独自算出の注目度): 11.551054698858266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models with human preferences often requires optimising multiple behavioural objectives. A practical approach is to apply these objectives sequentially using preference optimisation methods such as Direct Preference Optimisation (DPO), but it remains unclear whether later training uniformly degrades preferences learned earlier or whether the effect depends on the relationship between objectives. We study sequential DPO across four preference settings covering distributional conflict, multi-attribute interaction, strong safety signal, and compatible response-quality objectives. Using Llama-3.1-8B-Instruct with LoRA adapters, we evaluate all objectives after every stage with a fixed base-model reference. We find that sequential DPO does not produce a single forgetting pattern; preference change ranges from partial degradation to stability, pair-level redistribution, or positive transfer depending on objective relationship, signal strength, and training order. Pair-level analysis using length-normalised policy margins shows that aggregate metrics can mask heterogeneous changes across preference pairs, whereas quartile decomposition reveals that high-confidence pairs can either degrade or improve depending on the setting. Mechanistic diagnostics show that Stage~2 gradients and adapter updates are near-orthogonal to the previous objective across all settings, providing little evidence that direct gradient opposition is the primary driver. These findings suggest that future sequential alignment pipelines should account for objective compatibility and signal strength, rather than assuming that later objectives affect earlier preferences uniformly.
- Abstract(参考訳): 言語モデルを人間の好みで調整するには、複数の行動目標を最適化する必要があることが多い。
実践的なアプローチは、直接選好最適化(DPO)のような選好最適化手法を用いて、これらの目的を順次適用することであるが、後続のトレーニングが、学習した選好を一様に劣化させるか、その効果が目的間の関係に依存するかは定かではない。
本研究では,分散コンフリクト,マルチ属性インタラクション,強い安全性信号,応答品質の両目標を対象とする4つの選好設定のシーケンシャルDPOについて検討した。
Llama-3.1-8B-Instruct with LoRA adapters, we evaluate all objectives after every stage with a fixed base-model reference。
優先的な変化は, 部分的劣化から安定性, ペアレベルの再分配, 客観的関係, 信号強度, トレーニング順序による正の伝達まで様々である。
長さ正規化政策マージンを用いたペアレベルの分析では、集約メトリクスが選好ペア間での不均一な変化を隠蔽しうるのに対し、質素な分解は、高信頼ペアが設定に応じて劣化または改善できることを示している。
メカニカル診断では、ステージ~2の勾配とアダプタの更新は、すべての設定で以前の目標とほぼ直交していることが示され、直接的な勾配反対が主要なドライバであることを示す証拠はほとんどない。
これらの結果は、将来の逐次アライメントパイプラインは、後続の目的が以前の嗜好に一様に影響を与えると仮定するのではなく、客観的な互換性と信号強度を考慮すべきであることを示している。
関連論文リスト
- Towards Disentangled Preference Optimization Dynamics Beyond Likelihood Displacement [33.80669933764735]
本稿では、選好最適化のインセンティブ・スコアを統一的に分解する。
遠近距離帯域 (DB) は, トレーニングが回避できる場合に特徴付ける, 単純で検証可能な条件である。
そこで本稿では,DB と確率変位を満たすために,選択された更新と削除された更新のバランスを適応的に調整するプラグイン・アンド・プレイ・アンフレワード・キャリブレーション(RC)を提案する。
論文 参考訳(メタデータ) (2026-04-20T13:23:27Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals [46.58760908162995]
本研究では,大規模言語モデルのための新しい理論的基盤データ選択法を提案する。
直接選好最適化目標の損失境界を解析することにより,この戦略の最適性を証明する。
我々の戦略は、標準的な全体主義的嗜好とより強い託宣の両方に対して、10%以上の相対的な改善を達成する。
論文 参考訳(メタデータ) (2025-08-11T05:43:02Z) - Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文 参考訳(メタデータ) (2025-05-16T05:58:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。
これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。
我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文 参考訳(メタデータ) (2024-08-12T16:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。