論文の概要: VIMPO: Value-Implicit Policy Optimization for LLMs
- arxiv url: http://arxiv.org/abs/2606.20008v1
- Date: Thu, 18 Jun 2026 09:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.773875
- Title: VIMPO: Value-Implicit Policy Optimization for LLMs
- Title(参考訳): VIMPO: LLMの値型ポリシー最適化
- Authors: Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song, Xuandong Zhao,
- Abstract要約: GRPOのようなグループ相対的手法は、批評家の訓練を避けるが、典型的には全てのトークンに軌道レベルの利点を割り当てる。
アクター批判的手法は、より密集した学習信号を提供するが、学習価値関数を自身のトレーニング不安定性で要求する。
本稿では,KL-正規化強化学習の最適条件からポリシ実装値関数を導出する,批判のないポリシ最適化手法であるVIMPOを紹介する。
- 参考スコア(独自算出の注目度): 106.88933849641272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards has become a central tool for improving the reasoning ability of large language models, but current methods face a trade-off between simplicity and credit assignment. Group-relative methods such as GRPO avoid training a critic, but typically assign a trajectory-level advantage to every token. Actor-critic methods provide denser learning signals, but require a learned value function with its own training instability. We introduce VIMPO, a critic-free policy optimization method that derives a policy-implied value function from the optimality conditions of KL-regularized reinforcement learning. For autoregressive generation, the resulting value recurrence can be written in terms of policy-reference log-ratios and anchored by the terminal condition that no future reward remains at the end of a trajectory. This gives a simple value loss that incorporates outcome-level verifiable rewards without training a critic. The same derivation also yields a critic-free actor advantage, allowing VIMPO to separate reward incorporation through the value loss from policy improvement through a PPO-style actor update. On mathematical RLVR benchmarks, VIMPO improves over GRPO across MATH-500, AIME 2024, AIME 2025, and OlympiadBench, with especially larger gains on competition-style evaluations. Under noisy rewards, VIMPO retains a consistent advantage over GRPO, suggesting that policy-implied value optimization can provide finer credit assignment while preserving the practical simplicity of critic-free training.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習は、大きな言語モデルの推論能力を向上させる中心的なツールとなっているが、現在の手法は単純さと信用代入のトレードオフに直面している。
GRPOのようなグループ相対的手法は、批評家の訓練を避けるが、典型的には全てのトークンに軌道レベルの利点を割り当てる。
アクター批判的手法は、より密集した学習信号を提供するが、学習価値関数を自身のトレーニング不安定性で要求する。
そこで我々は,KL正規化強化学習の最適条件からポリシ実装値関数を導出する,批判のないポリシ最適化手法であるVIMPOを紹介する。
自己回帰生成では、結果の値の再帰はポリシー参照の対数比で記述でき、終端条件によって固定され、将来の報酬は軌道の終端に残らない。
これは、批評家を訓練せずに結果レベルの検証可能な報酬を組み込む、単純な価値損失を与える。
同様の派生法は、PPOスタイルのアクター更新を通じてポリシーの改善による価値損失を通じて、VIMPOが報酬を分離できるという、批判のないアクターの優位性も得る。
数学的なRLVRベンチマークでは、VIMPOは、MATH-500、AIME 2024、AIME 2025、OlympiadBenchのGRPOよりも改善され、特に競技スタイルの評価が向上した。
騒々しい報奨の下では、VIMPOはGRPOに対して一貫した優位性を維持しており、ポリシーにより実装された価値最適化は、批判のないトレーニングの実践的単純さを維持しながら、より詳細なクレジット割り当てを提供できることを示唆している。
関連論文リスト
- Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning [50.738952715864116]
表現的連続制御ポリシは、シミュレーションされた実ロボット制御のための模倣学習のスケーリングにおける進歩のバックボーンを形成する。
テスト時に完全にポリシー最適化を行うRLアルゴリズムであるQGF(Q-Guided Flow)を提案する。
実証的には、QGFはシングルタスクおよびゴール条件のオフラインRLベンチマークにおいて、以前のテスト時間RLメソッドよりも優れている。
論文 参考訳(メタデータ) (2026-06-09T16:45:57Z) - One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training [69.32453275232662]
学習した評論家は、利点のばらつきを減らさずに、取得した状態信号を超える推定ノイズを注入できることを示す。
本稿では,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPOを提案する。
論文 参考訳(メタデータ) (2026-04-21T14:07:39Z) - Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。