論文の概要: Baseline-Free Policy Optimization for Neural Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2606.10321v1
- Date: Tue, 09 Jun 2026 02:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.264621
- Title: Baseline-Free Policy Optimization for Neural Combinatorial Optimization
- Title(参考訳): ニューラルコンビネーション最適化のためのベースラインフリーポリシー最適化
- Authors: Carlos S. Sepúlveda, Gonzalo A. Ruz,
- Abstract要約: グループ相対ポリシー最適化は、サンプリングされた軌道群内の利点を正規化することによって、ベースラインを完全に排除する。
GRPOは、強力なAMベースのマルチスタートベースラインであるPOMOの2%以内で、外部ベースラインを必要としないソリューション品質を実現する。
これらの結果から,GRPO は NCO の有望なベースラインフリー代替品であり,特にベースライン依存トレーニングが脆弱な環境では有効であると考えられた。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural combinatorial optimization (NCO) trains autoregressive policies to solve routing problems. The standard training algorithm, REINFORCE with a rollout baseline, requires maintaining and periodically updating a frozen copy of the policy for variance reduction. This baseline introduces a structural vulnerability: on harder instances, a poor baseline produces noisy gradient estimates that can destabilize training. We evaluate Group Relative Policy Optimization (GRPO), an algorithm from large language model alignment that eliminates the baseline entirely by normalizing advantages within groups of sampled trajectories. In a controlled comparison of five RL algorithms on TSP and CVRP benchmarks within the RL4CO framework, we find that: (i) GRPO avoids the training collapse observed with REINFORCE on TSP-100, where performance degrades from cost 9.8 to 52.1 immediately after the warmup phase and does not recover under extended training; (ii) at matched gradient updates, GRPO achieves solution quality within 2% of POMO, a strong AM-based multi-start baseline, while requiring no external baseline; and (iii) P3O, a pairwise preference algorithm also from the alignment literature, is competitive on TSP but shows higher variability on CVRP. These results identify GRPO as a promising baseline-free alternative for NCO, particularly in settings where baseline-dependent training becomes fragile.
- Abstract(参考訳): ニューラル組合せ最適化(NCO)は、ルーティング問題を解決するために自己回帰ポリシーを訓練する。
標準トレーニングアルゴリズムであるREINFORCEのロールアウトベースラインでは,分散低減のためのポリシの凍結コピーを定期的に更新する必要がある。
このベースラインには構造的な脆弱性が伴う – 難しいインスタンスでは、貧弱なベースラインがノイズの多い勾配推定を生成して、トレーニングを不安定にする。
我々は,大規模な言語モデルアライメントのアルゴリズムGRPO(Group Relative Policy Optimization)を評価し,サンプルトラジェクトリ群内のアドバンテージを正規化することによって,ベースラインを完全に排除する。
RL4COフレームワーク内のTSPおよびCVRPベンチマークにおける5つのRLアルゴリズムの制御された比較において、以下のことが分かる。
i) GRPOは、TSP-100上のREINFORCEで観測されたトレーニング崩壊を回避し、ウォームアップフェーズの直後に性能が9.8から52.1に低下し、長期のトレーニングで回復しない。
(ii) 一致した勾配更新時に、GRPOは、外部ベースラインを必要とせず、強力なAMベースのマルチスタートベースラインであるPOMOの2%以内のソリューション品質を達成する。
(iii)P3Oは、アライメント文献からのペア選好アルゴリズムであり、TSPでは競合するが、CVRPでは高いばらつきを示す。
これらの結果から,GRPO は NCO の有望なベースラインフリー代替品であり,特にベースライン依存トレーニングが脆弱な環境では有効であると考えられた。
関連論文リスト
- Ratio-Variance Regularized Policy Optimization [64.95520246570446]
ポリシ比の分散を明示的に制約することは、信頼領域の制約に対する原則的な局所近似をもたらすことを示す。
本稿では,この制約を実装したR2bf VPO$(Ratio-Variance Regularized Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2026-05-26T09:53:42Z) - Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation [13.272542054938258]
非効率な勾配でトレーニングバッチの割合を定量化する最初の指標であるAdvantage Collapse Rate (ACR)を導入する。
次に、仮想報酬サンプルを注入するGRPOの軽量拡張であるAdaptive Virtual Sample Policy Optimization (AVSPO)を提案する。
AVSPOはGRPOに対して58~63%の利害崩壊を減少させ、すべてのモデルスケールで4~6ポイントの一貫した精度向上をもたらす。
論文 参考訳(メタデータ) (2026-05-20T12:57:37Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。