論文の概要: KLip-PPO: A per-sample KL perspective on PPO-Clip
- arxiv url: http://arxiv.org/abs/2606.23932v1
- Date: Mon, 22 Jun 2026 20:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.686309
- Title: KLip-PPO: A per-sample KL perspective on PPO-Clip
- Title(参考訳): KLip-PPO:PPO-Clipにおけるサンプル毎KL視点
- Authors: Riccardo Colletti, Robin Holzinger,
- Abstract要約: PPOは、オンライン強化学習のための標準ポリシー段階のアルゴリズムである。
切断したサロゲートの勾配は, 試料毎に係数が変化するKulback-Leiblerサロゲートによって正確に再現されることを示す。
改質は、min表記が隠すクリップされたサロゲートの構造的特徴を露呈する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proximal Policy Optimization (PPO) is the standard policy-gradient algorithm for on-policy reinforcement learning. The literature presents it in two forms, a clipped surrogate that bounds the importance ratio between successive policies and a Kullback-Leibler penalty between them. These forms are treated as separate algorithms with their own gradients, their own hyperparameters, and their own reference implementations, and a sizeable body of empirical work compares them. We show that the gradient of the clipped surrogate is reproduced exactly by a Kullback-Leibler surrogate whose coefficient varies per sample, with closed-form dependence on the importance ratio and the advantage. The identity holds at every minibatch step and across the entire inner loop, and on five MuJoCo continuous-control benchmarks the two losses produce indistinguishable training curves. The reformulation exposes a structural feature of the clipped surrogate that the min notation hides. PPO-Clip's implicit per-sample penalty is a step function at the boundary of the trust region, and the shape of this coefficient is the natural design axis for generalising the algorithm. We sketch the resulting follow-up directions in the discussion.
- Abstract(参考訳): Proximal Policy Optimization (PPO) は、オンライン強化学習のための標準ポリシー段階のアルゴリズムである。
文献では、連続する政策の重要度と、それらの間のクルバック・リーバーのペナルティを制限したクリッピングサロゲートという2つの形態で提示されている。
これらの形式は、それぞれの勾配、それぞれのハイパーパラメータ、およびそれぞれの参照実装を持つ別個のアルゴリズムとして扱われる。
切断したサロゲートの勾配は, 1サンプルあたりの係数が変化するクルバック・リーブラー・サロゲートによって正確に再現され, 重要度と優位性にクローズフォームが依存することを示す。
アイデンティティは、すべてのミニバッチステップとインナーループ全体を保持し、5つのMuJoCo連続制御ベンチマークでは、2つの損失は区別できないトレーニング曲線を生成する。
改質は、min表記が隠すクリップされたサロゲートの構造的特徴を露呈する。
PPO-Clipの暗黙的なサンプルごとのペナルティは信頼領域の境界におけるステップ関数であり、この係数の形状はアルゴリズムを一般化するための自然な設計軸である。
議論の結果のフォローアップの方向性をスケッチします。
関連論文リスト
- Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models [61.74572554094633]
比クリッピングは流れモデルに不適であると主張する。
本稿では,比クリッピングを分岐近位制約に置き換えるFlow-DPPOを提案する。
実験により,フローDPPOはKL近位効率が向上し,高い報酬が得られることが示された。
論文 参考訳(メタデータ) (2026-06-09T15:59:57Z) - Rethinking Importance Sampling in LLM Policy Optimization: A Cumulative Token Perspective [22.848847562976633]
トークンレベルのIS比は、PPOとGRPOが採用しているように、プレフィックス状態の分布ミスマッチを無視してバイアスを導入する。
我々は、累積トークンIS比と、累積対数比の自然な$sqrtt$成長に応じて、対数空間のクリップ境界を拡大する位置適応クリッピングを組み合わせたCTPOを提案する。
論文 参考訳(メタデータ) (2026-05-08T06:35:02Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Sliced Rényi Pufferfish Privacy: Directional Additive Noise Mechanism and Private Learning with Gradient Clipping [27.430637970345433]
本稿では,Pufferfish ファミリーにおける民営化機構の設計とプライバシ会計について検討する。
Sliced Renyi Pufferfish Privacy (SRPP)を導入し、一組の単位ベクトル上での方向比較を高次元に置き換える。
提案手法は, 静的かつ反復的な設定において, プライバシー利用のトレードオフを良好に実現していることを示す。
論文 参考訳(メタデータ) (2025-11-30T22:22:29Z) - Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions [0.5416466085090772]
emphQuantile Reward Policy Optimization (QRPO)を導入する。
QRPO は KL-正則化 RL 目的の閉形式解への回帰を可能にするために量子的報酬を使用する。
チャットとコーディングの評価において、一貫して最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-10T17:56:24Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - PPO-Clip Attains Global Optimality: Towards Deeper Understandings of
Clipping [16.772442831559538]
我々は,PPO-Clip変異体を表計算と神経機能近似の両方で表わした最初の大域収束結果を確立した。
また, クリッピング機構がPPO-Clip収束に及ぼす影響を初めて明らかにした。
論文 参考訳(メタデータ) (2023-12-19T11:33:18Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。