論文の概要: Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2606.18810v1
- Date: Wed, 17 Jun 2026 08:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.066343
- Title: Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards
- Title(参考訳): 独自のソリューションから学ぶ: 検証可能なリワードによる強化学習のための自己完結型クレジットアサインメント
- Authors: Yingyu Shan, Yuhang Guo, Zihao Cheng, Zeming Liu, Xiangrong Zhu, Xinyi Wang, Jiashu Yao, Wei Lin, Hongru Wang, Heyan Huang,
- Abstract要約: 我々は、前述のKL分散をGRPO勾配の乗算重みとして用いるSC-GRPO(Self-Conditioned GRPO)を提案する。
数学、コード、エージェントタスクにまたがる5つのベンチマークで、SC- GRPOはGRPOより8.1%、DAPOより5.9%、OODパフォーマンスが強い。
- 参考スコア(独自算出の注目度): 49.1203423784326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has driven substantial progress in training LLMs for reasoning tasks, but representative methods such as GRPO assign uniform credit across all tokens, wasting gradient on routine tokens while under-crediting pivotal reasoning steps. Existing token-level credit assignment methods require resources beyond the model's own rollouts. GRPO variants rely on process reward models or ground-truth answers. Knowledge distillation assigns credit through per-token divergence but requires external teachers (On-Policy Distillation) or privileged information (On-Policy Self Distillation). However, these dependencies limit applicability in the pure RLVR setting. We observe that conditioning the model on its own verified trajectories induces a measurable per-token KL divergence between the original and conditioned distributions, and prove that distilling from a self-teacher constructed by verified trajectories leads to infeasible weighted-average solutions when multiple verified trajectories exist. We propose SC-GRPO (Self-Conditioned GRPO), which uses KL divergence mentioned before as a multiplicative weight on GRPO gradients. Across five benchmarks spanning math, code, and agentic tasks, SC-GRPO consistently outperforms 8.1% over GRPO and 5.9% over DAPO with stronger OOD performance. Moreover, SC-GRPO achieves higher performance than OPD.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、推論タスクのためのLLMのトレーニングにおいてかなりの進歩をもたらしたが、GRPOのような代表的手法は、すべてのトークンに均一なクレジットを割り当て、ルーチントークンの勾配を無駄にしながら、重要な推論ステップを過小評価している。
既存のトークンレベルのクレジット割り当てメソッドは、モデル自身のロールアウト以上のリソースを必要とする。
GRPOの変種は、プロセス報酬モデルや地味な答えに依存している。
知識蒸留は、個人ごとの分散を通じてクレジットを割り当てるが、外部の教員(On-Policy Distillation)や特権情報(On-Policy Self Distillation)を必要とする。
しかし、これらの依存関係は純粋なRLVR設定の適用性を制限する。
実験結果から, 検証トラジェクトリによる自己学習者からの蒸留が, 複数の検証トラジェクトリが存在する場合, 平均平均解となることを示す。
我々は、前述のKL分散をGRPO勾配の乗算重みとして用いるSC-GRPO(Self-Conditioned GRPO)を提案する。
数学、コード、エージェントタスクにまたがる5つのベンチマークで、SC-GRPOはGRPOより8.1%、DAPOより5.9%、OODパフォーマンスが強い。
さらに、SC-GRPOはOPDよりも高い性能を達成する。
関連論文リスト
- VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation [33.370957547486775]
Granularity-AdaptivE Advantage Reweightingはトークンレベルの信号とセグメントレベルの信号を使って、軌跡レベルのGRPOの利点を再評価する。
GEARは、標準のGRPO、自己蒸留のみのベースライン、トークンまたはターンレベルのクレジット割り当てメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-12T09:38:38Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。