論文の概要: What are Key Factors for Updates in RL for LLM Reasoning?
- arxiv url: http://arxiv.org/abs/2606.22570v1
- Date: Sun, 21 Jun 2026 16:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:32:39.620866
- Title: What are Key Factors for Updates in RL for LLM Reasoning?
- Title(参考訳): LLM推論におけるRLの更新要因について
- Authors: Peidong Wang, Demi Wang, Xufang Luo, Jiahang Xu, Xiaocui Yang, Shi Feng, Yuqing Yang, Dongsheng Li,
- Abstract要約: 本研究では,ロールアウト毎の勾配ステップ数によって決定される非政治的度合いの違いが,重要サンプリング率の分布とクリッピング挙動に大きく影響していることを示す。
これらの結果から, トークン群間の境界を, 重要サンプリング比の実験的分散に応じてクリッピングする適応クリップポリシー最適化 (ACPO) を提案する。
- 参考スコア(独自算出の注目度): 41.37684066124904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a promising framework for enhancing the reasoning ability of large language models. However, much of the existing work is guided by heuristic intuition, leading to divergent algorithmic choices, even contradictory ones that nevertheless report empirical gains. To better understand this phenomenon, we conduct a theoretical analysis of RLVR updates. Our study reveals that differences in off-policy degree, determined by the number of gradient steps per rollout, substantially affect the distribution of importance sampling ratios and their clipping behavior, thereby altering which tokens dominate the update. Building on this insight, we characterize gradient expectation as the central quantity governing update dynamics and analyze the roles of token probability, advantage, and importance sampling ratio. Motivated by these findings, we propose Adaptive Clip Policy Optimization (ACPO), which adjusts clipping boundaries across token groups according to the empirical variance of their importance sampling ratios. Experiments on 3B and 7B models across diverse reasoning benchmarks, spanning mathematical problem solving, tabular QA, and logic puzzles, demonstrate that ACPO outperforms strong baselines such as DAPO and CISPO. These results demonstrate that principled, analysis-driven approaches yield more robust and effective RLVR methods. Code is available in: https://github.com/Control-derek/ACPO
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR)は、大規模言語モデルの推論能力を高めるための有望なフレームワークとして登場した。
しかし、既存の研究の多くはヒューリスティックな直観によって導かれ、アルゴリズムの選択が多様化し、矛盾するものでさえも経験的利益を報告している。
この現象をよりよく理解するために、RLVR更新の理論解析を行う。
本研究は,ロールアウト毎の勾配ステップ数によって決定される非政治的度合いの違いが,重要サンプリング率の分布とクリッピング挙動に大きく影響し,どのトークンが更新を支配しているかが変化することを明らかにした。
この知見に基づいて、我々は勾配予測を、更新ダイナミクスを規定する中心的な量として特徴付け、トークン確率、利点、重要サンプリング比の役割を分析する。
そこで本研究では,トークン群間のクリッピング境界を重要サンプリング比の実験的分散に応じて調整する適応クリップポリシー最適化(ACPO)を提案する。
3Bモデルと7Bモデルの実験は、数学的な問題解決、表計算QA、論理パズルにまたがって行われ、ACPOはDAPOやCISPOのような強力なベースラインよりも優れていることを示した。
これらの結果は、原理的、分析駆動のアプローチにより、より堅牢で効果的なRLVR法が得られることを示している。
https://github.com/Control-derek/ACPO
関連論文リスト
- Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。
ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-26T06:25:27Z) - Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs [65.76530158565903]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)における推論を大幅に改善した。
本研究は,RLVRの分布効果に関する系統的研究である。
RLファインチューニングは, 基数とRLポリシーの間に有意なばらつきを示すトークン分布のごく一部で, 高度にスパースかつ目標となる変化を誘発することがわかった。
論文 参考訳(メタデータ) (2026-03-23T18:17:15Z) - On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation [81.29776444949539]
アップデートの方向性は、RLVRの効果を理解するためのより重要なレンズである、と我々は主張する。
我々の研究は、RLVRの分析と改善の鍵となる原則として変化の方向を確立する。
論文 参考訳(メタデータ) (2026-03-23T15:42:24Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Token-Regulated Group Relative Policy Optimization for Stable Reinforcement Learning in Large Language Models [18.785063555637613]
グループ相対政策最適化(GRPO)は、高いパフォーマンスを示している。
低確率トークンが不均等に勾配更新を支配している。
この不均衡は不安定なトレーニングをもたらし、高確率トークンの寄与を抑制する。
論文 参考訳(メタデータ) (2025-10-29T08:07:47Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。