論文の概要: Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.17890v1
- Date: Tue, 16 Jun 2026 13:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.443695
- Title: Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models
- Title(参考訳): RL-Trained Reasoning Modelにおける再考のための動的ロールアウト編集
- Authors: Zihao Wei, Wenjie Shi, Liang Pang, Jingcheng Deng, Shicheng Xu, Shasha Guo, Zenghao Duan, Jiahao Liu, Jingang Wang, Huawei Shen, Xueqi Cheng,
- Abstract要約: 長い形式の連鎖推論は複雑なタスクのパフォーマンスを向上させることができる。
しかし、正しい答えが現れた後、モデルはしばしば不要な推論を生成し続ける。
我々はこの現象をGRPO型強化学習の観点から研究する。
- 参考スコア(独自算出の注目度): 102.76983747945836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form chain-of-thought reasoning can improve LLM performance on complex tasks, but models often continue generating unnecessary reasoning after a correct answer has emerged. We refer to this behavior as overthinking. We study this phenomenon from the perspective of GRPO-style reinforcement learning (RL) post-training, framing it as a training-time credit-assignment problem rather than merely a decoding-time stopping problem. In rollouts sampled at the onset of GRPO training, we observe that successful trajectories can exhibit a slightly higher degree of overthinking than unsuccessful trajectories for the same prompts. This early imbalance provides a starting point for an undesirable feedback loop: because GRPO assigns sequence-level credit, it cannot distinguish the solution-reaching prefix from the unnecessary continuation that lengthens a successful trajectory. Both receive positive update signal, allowing the initial imbalance to grow into more severe overthinking during training. To address this issue, we introduce Dynamic Rollout Editing (DRE), a training-time intervention for successful trajectories that continue thinking after answer emergence. DRE preserves the accepted verified prefix, edits the remaining thinking, and prefers the edited trajectory within the same RL group, weakening the preference signal for unnecessary thinking without penalizing the reasoning needed to reach the answer. Experiments across diverse tasks show the effectiveness of DRE.
- Abstract(参考訳): ロングフォーム・チェーン・オブ・ソート推論は複雑なタスクにおけるLLMのパフォーマンスを向上させることができるが、モデルはしばしば正しい答えが現れた後、不要な推論を生成し続ける。
私たちはこの行為を過度に考え過ぎだと考えている。
我々は,この現象をGRPO型強化学習(RL)後学習の観点から検討し,単に復号時停止問題ではなく,訓練時クレジット割り当て問題とみなす。
GRPOトレーニングの開始時に採取したロールアウトでは、成功した軌道は、同じプロンプトで失敗した軌道よりもわずかに過度に過大な考えを示すことが観察された。
この初期の不均衡は、望ましくないフィードバックループの出発点となる:GRPOはシーケンスレベルのクレジットを割り当てているため、成功軌道を延長する不要な継続と解を導くプレフィックスを区別することはできない。
どちらも肯定的な更新信号を受け取り、トレーニング中に初期不均衡がより深刻に再考されるようになる。
この問題に対処するために,動的ロールアウト編集(Dynamic Rollout Editing, DRE)を導入する。
DREは、承認された前置詞を保存し、残りの思考を編集し、同じRLグループ内の編集された軌跡を好んで、答えに到達するために必要な推論を罰することなく、不必要な思考のための選好信号を弱める。
多様なタスクにわたる実験は、DREの有効性を示している。
関連論文リスト
- TD-Grokking: Learning from Zero-Reward Problems by Training-Time Decomposition [10.882920019894451]
ゼロ逆問題に対する学習時間分解フレームワークTD-Grokkingを提案する。
TD-Grokking はバニラGRPO と全てのベースラインアプローチに優れることを示す。
論文 参考訳(メタデータ) (2026-06-03T06:40:04Z) - ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward [27.341541512259216]
視覚的な質問に答えるには、多段階の推論が必要である。
最近の強化学習によるポストトレーニングはマルチモーダル推論を改善することができる。
ほとんどのアプローチは、結果のみの報酬に頼っている。
ステップレベルのプロセス報酬を提供する実践的なポストトレーニングパイプラインであるProcessThinkerを提案する。
論文 参考訳(メタデータ) (2026-04-23T21:25:47Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。