論文の概要: A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.16154v1
- Date: Mon, 15 Jun 2026 03:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.050009
- Title: A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization
- Title(参考訳): RLVR安定度と勝者アドバンテージポリシー最適化のグラディエント視点
- Authors: Prasanth YSS, Zhichen Ren, Rasa Hosseinzadeh, Ilan Gofman, Yuqi Chen, Zhaoyan Liu, Guangwei Yu, Jesse C. Cresswell, Satya Krishna Gorti,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は言語モデル推論を改善するが、GRPOスタイルの最適化は崩壊しがちである。
我々はトークンレベルの勾配力学を通してこの不安定性を解析し、更新が次の確率とエントロピーにどのように影響するかを予測する分類法を導出した。
この発見を動機として、我々は、ポジティブ・アドバンテージ・ポリシー・オプティマイゼーション(WAPO: Winner Advantage Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 15.055990413189278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) improves language-model reasoning, but GRPO-style optimization remains prone to collapse. We analyse this instability through token-level gradient dynamics, deriving a taxonomy that predicts how updates affect next-token probabilities and entropy. The taxonomy shows that stability depends jointly on the advantage sign and token distribution under the current policy. Motivated by this finding, we propose Winner Advantage Policy Optimization (WAPO), a simple online clipped policy-gradient objective that updates only on positive-advantage completions. Across mathematical reasoning and multi-hop QA benchmarks, WAPO improves training stability and matches or outperforms baselines across multiple model families. Full code can be found at https://github.com/layer6ai-labs/wapo.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は言語モデル推論を改善するが、GRPOスタイルの最適化は崩壊しがちである。
我々はトークンレベルの勾配力学を通してこの不安定性を解析し、更新が次の確率とエントロピーにどのように影響するかを予測する分類法を導出した。
分類学は、安定性は現在の政策の下での有利なサインとトークンの分布に共同して依存していることを示している。
この発見を動機として、我々は、ポジティブ・アドバンテージ・ポリシー・オプティマイゼーション(WAPO)を提案し、これは、ポジティブ・アドバンテージ・コンプティマイションのみを更新するシンプルなオンラインクリッピングポリシー・グラディエントな目標である。
数学的推論とマルチホップQAベンチマークを通じて、WAPOはトレーニングの安定性を改善し、複数のモデルファミリにまたがるベースラインの整合性や性能を向上する。
完全なコードはhttps://github.com/layer6ai-labs/wapo.orgにある。
関連論文リスト
- Policy Improvement Reinforcement Learning [40.05196753615896]
Reinforcement Learning with Verifiable Rewards (RLVR) は、大規模言語モデルの推論能力を改善するためのトレーニング後の中心的なパラダイムとなっている。
既存のメソッドは共通の盲点を共有している: 結果の更新によってモデルが実際に改善されたかどうかを検証することなく、即時のグループレベルまたはバッチレベルの統計に基づいてポリシーを最適化する。
我々は、政策改善のフィードバックが欠落していること、すなわち、中間段階の進捗を直接測定し、最適化する能力が欠けていることを論じる。
論文 参考訳(メタデータ) (2026-04-01T13:10:20Z) - Stabilizing Policy Optimization via Logits Convexity [59.242732612484474]
モデルロジットに対する教師付き微調整損失の凸性は、安定したトレーニングを可能にする上で重要な役割を担っていることを示す。
そこで本研究では,ロジッツ・コンベックス最適化(Logits Convex Optimization, LCO)を提案する。
論文 参考訳(メタデータ) (2026-03-01T07:40:12Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。