論文の概要: Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.10968v2
- Date: Wed, 10 Jun 2026 17:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.402104
- Title: Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning
- Title(参考訳): LLM強化学習における一様トークンレベル信頼領域を超えて
- Authors: Renjie Mao, Xiangxin Zhou, Lvfang Tao, Yixin Ding, Yu Shi, Yongguang Lin, Yuheng Wu, Honglin Zhu, Qian Qiu, Wenxi Zhu,
- Abstract要約: 本稿では,2つのメカニズムを介して更新を有限水平ポリシー改善境界に整合させるトークンレベルのマスキングルールを提案する。
CPPOはトレーニングの安定性を高め、様々なモデルスケールでの推論精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 14.631835952085263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become standard for improving LLM reasoning. However, existing PPO-style trust-region mechanisms remain position-agnostic by enforcing uniform thresholds across all tokens independently. This pointwise treatment conflicts with autoregressive generation in two critical ways. First, uniform thresholds ignore autoregressive asymmetry. Early-stage deviations produce compounding sequence-level drift, causing static thresholds to under-regulate early divergence and excessively constrain late-stage exploration. Second, evaluating token-level divergence in isolation overlooks cumulative prefix drift, granting the same divergence allowance regardless of how far the conditioning history has already deviated from the rollout policy. To address this limitation, we propose CPPO (Cumulative Prefix-divergence Policy Optimization), a token-level masking rule that aligns updates with a finite-horizon policy-improvement bound via two coupled mechanisms. First, a position-weighted threshold imposes stricter limits at early positions whose effects persist longer, relaxing constraints for late-stage tokens. Second, a cumulative prefix budget tracks historical deviations, dynamically restricting further token-level deviation to prevent compounding errors along the prefix. Empirically, CPPO enhances training stability and significantly improves reasoning accuracy across various model scales.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、LLM推論を改善するための標準となっている。
しかし、既存のPPO方式の信頼領域機構は、全てのトークンに対して一様しきい値を独立に強制することで、位置に依存しないままである。
このポイントワイズ処理は、2つの重要な方法で自己回帰生成と矛盾する。
まず、均一な閾値は自己回帰的非対称性を無視する。
初期偏差は複雑なシーケンスレベルのドリフトを引き起こし、静的なしきい値が早期のばらつきを過度に制御し、後期の探査を過度に制限する。
第二に、孤立状態におけるトークンレベルのばらつきを評価することは累積プレフィックスドリフトを見落とし、条件付け履歴がロールアウトポリシーから既に逸脱しているかどうかに関わらず、同じばらつきを許容する。
この制限に対処するため, CPPO (Cumulative Prefix-divergence Policy Optimization) を提案する。
第一に、位置重み付き閾値は、影響が長く持続する初期の位置においてより厳格な制限を課し、後期のトークンに対する制約を緩和する。
第2に、累積プレフィックス予算は、過去の偏差を追跡し、さらにトークンレベルの偏差を動的に制限し、プレフィックスに沿った複合エラーを防止する。
実証的には、CPPOはトレーニングの安定性を高め、様々なモデルスケールでの推論精度を大幅に向上させる。
関連論文リスト
- Rethinking the Divergence Regularization in LLM RL [56.952725733148746]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の訓練後において重要な要素となっている。
そこで本稿では,ハードマスクをスムーズなアドバンテージ重み付き二次正規化器に置き換える多変量正規化政策最適化(DRPO)を提案する。
DRPOはDPPOと同じ信頼領域を保ちながら、有界で連続的な勾配重みを誘導する。
論文 参考訳(メタデータ) (2026-06-08T17:58:23Z) - FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models [50.86041384789834]
エンドツーエンドの拡散ロールアウトを必要とせずに、脆弱なフロンティア状態の保護を優先するdLLMのための2段階PTQフレームワークを提案する。
我々は、FAIR-CalibがLLaDAとDream(W4A4)の最先端ベースラインを一貫して上回り、フロンティア決定のフリップを減らし、様々なベンチマークにおけるコミット後のミスマッチを抑制することを示した。
論文 参考訳(メタデータ) (2026-06-04T08:00:51Z) - One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - Rethinking Importance Sampling in LLM Policy Optimization: A Cumulative Token Perspective [22.848847562976633]
トークンレベルのIS比は、PPOとGRPOが採用しているように、プレフィックス状態の分布ミスマッチを無視してバイアスを導入する。
我々は、累積トークンIS比と、累積対数比の自然な$sqrtt$成長に応じて、対数空間のクリップ境界を拡大する位置適応クリッピングを組み合わせたCTPOを提案する。
論文 参考訳(メタデータ) (2026-05-08T06:35:02Z) - ANO: A Principled Approach to Robust Policy Optimization [19.004647288017814]
政策最適化のための基本設計空間を導入し、ロバストな推定器が本質的に外れ値を抑制する必要があることを示す。
ANO(Anchored Neighborhood Optimization)は,クリッピングを再帰的な勾配機構でシームレスに置き換える手法である。
継続的(MuJoCo)と離散的(Atari)制御において、ANOは、高度に攻撃的な学習率の下でも、政策崩壊を独特に防止する、堅牢な最先端技術を確立している。
論文 参考訳(メタデータ) (2026-05-04T08:15:52Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds [1.2183405753834562]
オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
論文 参考訳(メタデータ) (2026-03-06T01:46:02Z) - Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins [31.581870065866568]
制約付きマルコフ決定過程(CMDP)における安全なオンライン強化学習を,強い後悔と違反の指標の下で研究する。
サブリニアの強い報酬を後悔させる既存の原始二重法は、強い制約違反の増大を招いたり、あるいは固有振動による平均点収束に制限されたりしている。
本稿では,マルチ正規化探索(FlexDOME)アルゴリズムによるフレキシブルセーフティドメイン最適化を提案する。
論文 参考訳(メタデータ) (2026-02-11T14:54:26Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。