論文の概要: Adaptive Loss Balancing for Noise-Robust GRPO in Generative Recommendation
- arxiv url: http://arxiv.org/abs/2606.08480v1
- Date: Sun, 07 Jun 2026 06:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.135449
- Title: Adaptive Loss Balancing for Noise-Robust GRPO in Generative Recommendation
- Title(参考訳): ジェネレーティブレコメンデーションにおけるノイズ・ロバストGRPOの適応損失バランス
- Authors: Kewei Xu, Junbo Qi, Yanyan Zou, Pengfei Zhang, Xingzhi Yao, Shengjie Li,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) は, 教師付き模倣を超越した生成的レコメンデーションを促進するための, 有望な道である。
実際には、広く採用されている報酬モデルである生産ランク付けは、露光バイアスのあるログに基づいて訓練され、サンプル依存の不正確さにつながる。
AdaGRPOは、報酬誘導最適化を均一な圧力よりも選択的な入力として扱う新しいフレームワークである。
- 参考スコア(独自算出の注目度): 9.508867853240469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) presents a promising avenue for enhancing generative recommendation beyond supervised imitation, leveraging reward signals to guide policy improvement. However, its efficacy is critically contingent on the trustworthiness of the reward model for the samples it evaluates. In practice, production rankers, the widely adopted reward models, are trained on exposure-biased logs, leading to sample-dependent inaccuracies that violate this assumption. Our stratified analysis uncovers a consistent pattern: reward guidance is most beneficial when the policy exhibits uncertainty and the ranker can effectively discriminate the ground-truth item from rollout negatives. On other samples, the reward signal is either negligible or detrimental, highlighting the risk of uniform RL application. To address such an issue, we introduce AdaGRPO, a novel framework that treats reward-guided optimization as selective admission rather than uniform pressure. Training is anchored in supervised negative log-likelihood, while the GRPO objective is gated by a binary, per-sample clip determined by two rollout diagnostics: policy-side difficulty and reward discriminability. Instances failing either diagnostic default to pure supervision, ensuring stability and mitigating the amplification of noisy gradients. We validate AdaGRPO on a large-scale e-commerce dataset. At the best intermediate checkpoint, it elevates HR@10 from 11.01% to 12.18% while constraining hallucination below 0.22%, and maintains robustness at the final checkpoint (HR@10 11.63%, hallucination 0.27%), outperforming fixed NLL--GRPO mixtures across the retrieval--validity frontier. In production A/B tests, AdaGRPO achieves statistically significant gains in click-through rate and dwell time, confirming its practical utility.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は, 政策改善の指針として報酬信号を活用することで, 教師付き模倣を超えて生成的推薦を強化するための有望な道を示す。
しかし、その有効性は、評価したサンプルに対する報酬モデルの信頼性に批判的に関係している。
実際には、広く採用されている報酬モデルである生産ランク付けは、露光バイアスのあるログに基づいて訓練され、この仮定に違反したサンプル依存の不正確さにつながる。
政策が不確実性を示す場合、報酬誘導は最も有益であり、ランク付け者は、ロールアウト陰性から地道的項目を効果的に識別することができる。
他のサンプルでは、報酬信号は無視可能か有害かのいずれかであり、均一なRL適用のリスクを強調している。
このような問題に対処するために、報酬誘導最適化を均一な圧力ではなく選択的な入力として扱う新しいフレームワークであるAdaGRPOを紹介する。
トレーニングは、監督された負のログライクな状態に固定され、GRPOの目的は、2つのロールアウト診断(ポリシー側難易度と報酬判別性)によって決定される2つのサンプル毎のクリップによってゲートされる。
診断のデフォルトを純粋に監視し、安定性を確保し、ノイズのある勾配の増幅を緩和する。
我々はAdaGRPOを大規模なeコマースデータセットで検証する。
最高の中間チェックポイントでは、HR@10は11.01%から12.18%まで上昇し、幻覚を0.22%以下に制限し、最終チェックポイント(HR@10 11.63%、幻覚 0.27%)で頑健性を維持し、検索-妥当性フロンティアをまたいだ固定NLL-GRPO混合よりも優れている。
AdaGRPOは実機A/Bテストにおいて、クリックスルー率と居住時間の統計的に有意な増加を達成し、実用性を確認した。
関連論文リスト
- When RLHF Fails: A Mechanistic Taxonomy of Reward Hacking, Collapse, and Evaluator Gaming [0.0]
近似ポリシ最適化(PPO)を用いたコンパクトRLHFパイプラインの失敗モードに関する実証的研究について述べる。
我々は、学習した報酬の方向、判定スコア、および平均判定スコアを用いて、チェックポイント間の一致した遷移を分類する。
ROC-AUC 0.821による将来の行レベルの報酬ハッキングを予測し、行レベルの分析では、チェックポイント平均が12の3つの設定で見逃すような局所的な報酬ハックが見つかる。
論文 参考訳(メタデータ) (2026-06-02T06:55:52Z) - VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation [13.272542054938258]
非効率な勾配でトレーニングバッチの割合を定量化する最初の指標であるAdvantage Collapse Rate (ACR)を導入する。
次に、仮想報酬サンプルを注入するGRPOの軽量拡張であるAdaptive Virtual Sample Policy Optimization (AVSPO)を提案する。
AVSPOはGRPOに対して58~63%の利害崩壊を減少させ、すべてのモデルスケールで4~6ポイントの一貫した精度向上をもたらす。
論文 参考訳(メタデータ) (2026-05-20T12:57:37Z) - RVPO: Risk-Sensitive Alignment via Variance Regularization [13.192921543523283]
本稿では, 利便集約時のリワード間分散をペナルティ化するリスクセンシティブなフレームワークであるReward-Variance Policy Optimization (RVPO)を提案する。
我々はTaylor拡張を通して、LogSumExp(SoftMin)オペレータがスムーズな分散ペナルティとして効果的に働くことを示す。
モデルがより簡単な目的を活かすために難しい制約を無視しないようにすることで、RVPOはHealthBenchの全体的なスコアを改善する。
論文 参考訳(メタデータ) (2026-05-07T06:43:05Z) - EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training [69.32453275232662]
学習した評論家は、利点のばらつきを減らさずに、取得した状態信号を超える推定ノイズを注入できることを示す。
本稿では,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPOを提案する。
論文 参考訳(メタデータ) (2026-04-21T14:07:39Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - GIPO: Gaussian Importance Sampling Policy Optimization [12.306486689840774]
GIPOは、切り詰められた重要度サンプリングに基づく政策最適化の目標として提案されている。
硬い切り抜きを対数比に基づくガウス的信頼重みに置き換え、極めて重要な比率を抑える。
GIPOは、クリッピングベースのベースライン間で、幅広いリプレイバッファサイズで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-04T11:34:59Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - NGRPO: Negative-enhanced Group Relative Policy Optimization [8.641009168869195]
代表的RLVRアルゴリズムであるGRPOは、グループ内の全ての応答が完全に正しいか完全に間違っている場合、臨界的な制限に悩まされる。
これは、GRPO の優位関数が 0 の値を生成する等質的不正確な群に対して特に問題となる。
等質な誤りを頑健な学習信号に変換するアルゴリズムであるNGRPOを提案する。
論文 参考訳(メタデータ) (2025-09-23T09:38:10Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。