論文の概要: GD$^2$PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.16771v1
- Date: Mon, 15 Jun 2026 14:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.611553
- Title: GD$^2$PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization
- Title(参考訳): GD$^2$PO:Group-Dynamic reward-Decoupled Policy Optimizationによるマルチリワード競合の緩和
- Authors: Haotian Liu, Yihao Liu, Jingwei Ni, Siyuan Huang, Xinpeng Liu, Pengyu Cheng, Jiajun Song, Ruijin Ding, Junfeng Li, Zhechao Yu, Mengyu Zhou, Hongteng Xu, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: 訓練後強化学習(RL)は多次元報酬に頼り、包括的能力を育成する。
これを解決するために、グループ報酬分離政策最適化(GDPO)のような既存の手法は、総合的なスコアを独立した報酬グループに分解し、各グループ内でRL損失を個別に計算する。
本稿では,GD$2$PO(Group-Dynamic reward-Decoupled Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 54.596224644751565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs advance, post-training reinforcement learning (RL) increasingly relies on multi-dimensional rewards to cultivate comprehensive capabilities. This shift demands new algorithms capable of optimizing diverse and potentially competing objectives simultaneously. To address this, existing methods such as Group reward-Decoupled Policy Optimization (GDPO) decompose the overall score into independent reward groups, then compute the RL loss separately within each group. However, this strategy still encounters multi-reward conflicts: a single rollout can yield positive advantages on certain reward dimensions but negative ones on others, causing opposing signals to cancel each other out during aggregation, further hindering RL training efficiency. Inspired by Dynamic sAmpling Policy Optimization (DAPO), which improves RL training efficiency by filtering out ineffective rollouts with near-zero advantages, we propose Group-Dynamic reward-Decoupled Policy Optimization (GD$^2$PO). Specifically, GD$^2$PO employs a conflict-aware filtering mechanism to mask out rollouts suffering from severe reward-wise disagreement. By preventing conflicting signals from canceling each other out, this masking strategy preserves and enhances the magnitude of effective RL advantages, thereby significantly accelerating learning efficiency. Furthermore, we introduce query-level reweighting to dynamically adjust the update intensity of each query based on its overall reward consensus. Experiments on various multi-reward scenarios, including tool calling and human preference alignment, demonstrate that GD$^2$PO consistently and significantly outperforms existing baselines. The code is available at https://github.com/Qwen-Applications/GD2PO.
- Abstract(参考訳): LLMが進むにつれて、訓練後強化学習(RL)は多次元報酬に頼り、包括的能力を育成するようになる。
このシフトは、多様な、潜在的に競合する目的を同時に最適化できる新しいアルゴリズムを必要とする。
これを解決するために、グループ報酬分離政策最適化(GDPO)のような既存の手法は、総合的なスコアを独立した報酬グループに分解し、各グループ内でRL損失を個別に計算する。
単一ロールアウトは特定の報酬次元に対して肯定的な利点をもたらすが、他のロールアウトは否定的な効果をもたらすため、アグリゲーション中に相手信号が互いにキャンセルされ、さらにRLトレーニング効率が阻害される。
非効率なロールアウトをほぼゼロのアドバンテージでフィルタリングすることで、RLトレーニング効率を向上するDynamic sAmpling Policy Optimization (DAPO)に着想を得て、グループ-Dynamic reward-Decoupled Policy Optimization (GD$^2$PO)を提案する。
特に、GD$^2$POは、厳しい報酬的不一致に苦しむロールアウトを隠蔽するために、コンフリクト対応のフィルタリング機構を採用している。
このマスキング戦略は、競合する信号が互いにキャンセルされることを防止し、有効なRLの利点の大きさを保ち、学習効率を大幅に向上させる。
さらに、各クエリの更新強度を、その全体的な報酬コンセンサスに基づいて動的に調整するクエリレベル再重み付けを導入する。
ツールコールや人間の嗜好アライメントを含む様々なマルチリワードシナリオの実験は、GD$^2$POが一貫して、既存のベースラインを大幅に上回ることを示した。
コードはhttps://github.com/Qwen-Applications/GD2POで公開されている。
関連論文リスト
- RLVR without Ineffective Samples: Group Prioritized Off-Policy Optimization for LLM Reasoning [49.04912820721943]
Group Prioritized Off-Policy Optimization (POPO)は、ロールアウトオーバーヘッドを発生させることなく、効果的なトレーニングバッチを活用するフレームワークである。
POPOは2つの重要なコンポーネントで構成されている。
POPOはRL微細化を著しく加速し、ロールアウトを著しく少なくして強力な推論性能を達成する。
論文 参考訳(メタデータ) (2026-05-31T15:06:38Z) - Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning [53.42577591449649]
グループ協力政策最適化は、トレーニングパラダイムをロールアウト競争からチーム協力へとシフトさせる。
GCPOは独立したロールアウトスコアをチームレベルのクレジット割り当てに置き換える。
チームへの平均的な限界貢献に従って、各ロールアウトに対して、グループチームの報酬を再分配する。
論文 参考訳(メタデータ) (2026-05-12T03:20:24Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Empowering Multi-Turn Tool-Integrated Reasoning with Group Turn Policy Optimization [20.004150645050537]
Group Turn Policy Optimization (GTPO) は、多ターンツール統合推論タスクにおける大規模言語モデル(LLM)のトレーニング用に設計された、新しい強化学習アルゴリズムである。
GTPOは、各ターンに対してきめ細かいフィードバックを提供するターンレベルの報酬割り当て、リターンベースの利点推定、自己監督型報酬形成という3つの重要なイノベーションを導入している。
総合評価の結果、GTPOは様々な推論ベンチマークでGRPOを平均3.0%上回っていることがわかった。
論文 参考訳(メタデータ) (2025-11-18T19:01:16Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。