論文の概要: Momentum for Reasoning: Dense Intrinsic Signals in Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.08815v1
- Date: Sun, 07 Jun 2026 20:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.467022
- Title: Momentum for Reasoning: Dense Intrinsic Signals in Policy Optimization
- Title(参考訳): 推論のためのモメンタム:政策最適化における本質的な信号
- Authors: Hao Chen, Zhanming Shen, Liyao Li, Yanyu Chen, Xuhang Zhu, Xiaomeng Hu, Qi Zhang, Ru Peng, Xiaoyu Shen, Haobo Wang, Junbo Zhao,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルにおける長鎖推論の強力なパラダイムとして登場した。
提案手法は,最終回答に対する思考軌跡の情報量を測定するシーケンスレベル信号と,重要な決定トークンにおける確実な予測を円滑化させるトークンレベル指向報酬とを組み合わせ,ISPO(Intrinsic Signal Policy Optimization)を提案する。
ISPOは競争ベースラインを一貫して上回り、ゼロアドバンテージ崩壊が最も頻繁なベンチマークで最大の利益を上げ、トレーニング力学診断では両方の障害モードが減少していることを確認した。
- 参考スコア(独自算出の注目度): 31.547614109943158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful paradigm for eliciting long-chain reasoning in large language models. However, existing methods based on Group Relative Policy Optimization (GRPO) rely on a binary outcome reward, which induces two structural failure modes: Zero-Advantage Collapse, in which all rollouts in a group share the same outcome and the gradient vanishes, and Hallucinated Certainty, in which the model becomes increasingly confident on incorrect rollouts late in training. We address both modes by densifying the reward with intrinsic signals computed entirely from the policy's own conditional probabilities, and propose ISPO (Intrinsic Signal Policy Optimization, which combines a sequence-level signal measuring how informative the thinking trajectory is for the final answer, with a token-level directional reward whose hallucinated-certainty hinge penalizes confidently-wrong predictions at critical decision tokens. Across three base models and five mathematical reasoning benchmarks, ISPO consistently outperforms competitive baselines, with the largest gains on the hardest benchmarks where zero-advantage collapse is most frequent, and training-dynamics diagnostics confirm that both failure modes are decreased.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルにおける長鎖推論の強力なパラダイムとして登場した。
しかし、グループ相対政策最適化(GRPO)に基づく既存の手法では、ゼロ・アドバンテージ・コラプス(Zero-Advantage Collapse)という2つの構造的障害モードがあり、グループ内のすべてのロールアウトが同じ結果を共有し、勾配が消える。
両モードは、ポリシーの条件付き確率から完全に計算された固有信号で報酬を重み付けすることで解決し、危機的決定トークンにおいて確実性の高いヒンジが確実性を示すトークンレベル指向報酬と、最終的な回答に対する思考軌跡の伝達量を測定するシーケンスレベル信号を組み合わせたISPO(Intrinsic Signal Policy Optimization)を提案する。
3つのベースモデルと5つの数学的推論ベンチマークで、ISPOは競争ベースラインを一貫して上回り、ゼロアドバンテージ崩壊が最も頻繁なベンチマークで最大の利益を上げ、トレーニング力学診断では、両方の障害モードが減少することを確認した。
関連論文リスト
- Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration [61.46060073417047]
MTP(Multi-Token Prediction)は、事前トレーニングにおいて広く採用されているモジュールである。
RL目標に対するMPPの段差効果は,第1次相関と第2次ペナルティの2つの項に分解できることを示す。
本稿では,ログ確率プロキシを用いて最適係数を無視可能なコストでオンラインで追跡する適応型手法を提案する。
論文 参考訳(メタデータ) (2026-05-27T09:07:06Z) - Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models [3.463914032107119]
グループ相対政策最適化(GRPO)は一般にすべてのトークンに対して一様でシーケンスレベルの利点を割り当てる。
本稿では,最適化の焦点を粗いシーケンスからきめ細かいトークンダイナミクスに移行するエントロピー制御ポリシ最適化(ERPO)を提案する。
論文 参考訳(メタデータ) (2026-03-30T09:20:25Z) - Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。