論文の概要: Variational Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.08032v1
- Date: Sat, 06 Jun 2026 07:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.677698
- Title: Variational Proximal Policy Optimization
- Title(参考訳): 変分近似政策最適化
- Authors: Ousmane Amadou Dia,
- Abstract要約: (textscVPtextscO) は、固定クリッピングやKLスケジュールへの依存を減らすことができる幾何学に基づく近位制御機構を導入する。
(mathbf179) ELOがCodeforcesに、(mathbf32%)トークン数がAIMEの数学的推論タスクで減少する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback via Proximal Policy Optimization often suffers from policy mode collapse, brittle exploration loops, and distribution drift. This paper introduces Variational Proximal Policy Optimization (\(\textsc{VP}_2\textsc{O}\)), a particle-based variational inference framework that maps policy optimization to Stein Variational Gradient Descent within a Mixture-of-Experts architecture. By leveraging functional kernels over localized expert prototypes alongside an expert orthogonalization loss, \(\textsc{VP}_2\textsc{O}\) introduces a geometry-based proximal-control mechanism that can reduce reliance on fixed clipping or KL schedules. Our results on a 33B/4B sparse Mixture-of-Experts model show several improvements across complex reasoning benchmarks, establishing a \(+\mathbf{179}\) ELO gain on Codeforces and a \(\mathbf{32\%}\) reduction in token count on AIME mathematical reasoning tasks.
- Abstract(参考訳): 近接政策最適化による人間からの強化学習は、しばしばポリシーモードの崩壊、脆い探索ループ、分布のドリフトに悩まされる。
本稿では,パラメータの混合アーキテクチャにおいて,ポリシ最適化を定常変分勾配にマッピングする粒子ベースの変分推論フレームワークである変分近似最適化(\(\textsc{VP}_2\textsc{O}\)を提案する。
局所化された専門家のプロトタイプと専門家の直交化損失を利用することにより、(\textsc{VP}_2\textsc{O}\) は固定クリッピングやKLスケジュールへの依存を軽減できる幾何学に基づく近位制御機構を導入する。
我々は,33B/4Bのスパース・ミックス・オブ・エクスプローツ・モデルを用いて,複雑な推論のベンチマークにおいて,コードフォース上での \(+\mathbf{179}\) ELO ゲインを確立し,AIME の数学的推論タスクにおいてトークンカウントの \(\mathbf{32\%}\) 削減を行った。
関連論文リスト
- BOOOM: Loss-Function-Agnostic Black-Box Optimization over Orthonormal Manifolds for Machine Learning and Statistical Inference [0.0]
我々は体系的な調査を行う。
対価のセット
直交円柱-直交円柱-直交円柱をaを通して脱出する。
データデータに適用されたノベル。
問題だ
対角最適化の枠組みを示す。
強力で低ランクな分解、独立的な分解分析。
環境下でのグローバルな収束です
論文 参考訳(メタデータ) (2026-04-23T19:32:27Z) - Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF [0.0]
大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種といった、異なるアルゴリズムの集合として提示される。
この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。
この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。
論文 参考訳(メタデータ) (2026-01-18T13:57:44Z) - A Kernel Approach for Semi-implicit Variational Inference [21.789560144560127]
半単純変分推論(SIVI)は階層的半単純分布を通して変分族を表現する。
SIVI-SM(SIVI-SM)に対する最近のスコアマッチング手法は、ミニマックスの定式化によってこの問題に対処している。
本稿では,カーネル半単純変分推論(KSIVI)を提案する。
論文 参考訳(メタデータ) (2026-01-17T12:06:12Z) - Neural Optimal Transport Meets Multivariate Conformal Prediction [58.43397908730771]
条件付きベクトル回帰(CVQR)のためのフレームワークを提案する。
CVQRは、ニューラルネットワークの最適輸送と量子化された最適化を組み合わせて、予測に適用する。
論文 参考訳(メタデータ) (2025-09-29T19:50:19Z) - Multi-Sample Anti-Aliasing and Constrained Optimization for 3D Gaussian Splatting [6.336372495476242]
本稿では,マルチサンプル・アンチエイリアスと2つの幾何学的制約を組み合わせた総合最適化フレームワークを提案する。
本システムでは,4重サブサンプルの適応ブレンディングにより画素色を計算し,高周波成分のエイリアスを効果的に低減する。
本手法は,特に高周波テクスチャと鋭い不連続の保存において,詳細な保存における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-14T10:14:36Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。