論文の概要: TD-Grokking: Learning from Zero-Reward Problems by Training-Time Decomposition
- arxiv url: http://arxiv.org/abs/2606.09883v1
- Date: Wed, 03 Jun 2026 06:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.002724
- Title: TD-Grokking: Learning from Zero-Reward Problems by Training-Time Decomposition
- Title(参考訳): TD-Grokking:学習時間分解によるゼロ・リワード問題からの学習
- Authors: Ningyuan Xi, Hao Xu, Hongsheng Xin, Ning Miao,
- Abstract要約: ゼロ逆問題に対する学習時間分解フレームワークTD-Grokkingを提案する。
TD-Grokking はバニラGRPO と全てのベースラインアプローチに優れることを示す。
- 参考スコア(独自算出の注目度): 10.882920019894451
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have made remarkable progress in reasoning tasks, largely driven by post-training paradigms, especially reinforcement learning with verifiable rewards (RLVR). However, a critical bottleneck persists: RLVR fails on highly challenging zero-reward problems, where all sampled reasoning trajectories yield uniformly failed outcomes, providing no optimization signal to drive model improvement. Prior efforts to address this limitation, such as dense process supervision, partial reward assignment, or prefix-guided exploration, suffer from inherent task constraints or do not fully equip the policy model with the capabilities necessary to solve the original intractable problems. To address this, we propose TD-Grokking, a training-time decomposition framework for zero-reward problems. It recursively decomposes intractable root problems into self-contained, verifiable subproblems, forming hierarchical trees where solvable leaves provide non-zero rewards. Evaluations on mathematical and medical tasks show that TD-Grokking outperforms vanilla GRPO as well as all baseline approaches. Together with detailed analysis, these results confirm that training-time decomposition effectively converts zero-reward examples into usable training signals, enabling consistent performance gains. Our code and datasets are available at https://anonymous.4open.science/r/TD-Grokking-6567/.
- Abstract(参考訳): 大規模言語モデル(LLM)は、主に訓練後のパラダイム、特に検証可能な報酬付き強化学習(RLVR)によって、推論タスクにおいて顕著な進歩を遂げている。
しかし、重要なボトルネックは続く: RLVRは、全てのサンプリングされた推論軌道が一様に失敗し、モデル改善を駆動する最適化信号を提供しない、高度に挑戦するゼロ・リワード問題に失敗する。
この制限に対処する以前の努力、例えば、密集したプロセスの監督、部分的な報酬の割り当て、またはプレフィックス誘導された探索は、固有のタスク制約に悩まされるか、または、元の難解な問題を解決するのに必要な能力をポリシーモデルに完全に装備しない。
そこで本研究では,ゼロ逆問題に対する学習時間分解フレームワークであるTD-Grokkingを提案する。
難解な根問題を自己完備で検証可能なサブプロブレムに再帰的に分解し、可解な葉が非ゼロ報酬を与える階層木を形成する。
数学的および医学的なタスクの評価は、TD-GrokkingがバニラGRPOと全てのベースラインアプローチに勝っていることを示している。
これらの結果から,ゼロ・リワード例を有効に活用可能なトレーニング信号に変換し,一貫した性能向上を実現することが確認された。
私たちのコードとデータセットはhttps://anonymous.4open.science/r/TD-Grokking-6567/で公開されています。
関連論文リスト
- Learn Hard Problems During RL with Reference Guided Fine-tuning [56.56461712665904]
数学的推論のための強化学習(RL)は報酬の分散に悩むことがある。
本稿では,Reference-Guided Fine-Tuning (ReGFT)を導入し,ハード問題に対する正の軌道を合成し,RLの前にトレーニングする。
以上の結果から,ReGFTは報酬空間を効果的に克服し,より強力なRLに基づく数学的推論を解き放つことが示唆された。
論文 参考訳(メタデータ) (2026-03-01T18:41:28Z) - PROPA: Toward Process-level Optimization in Visual Reasoning via Reinforcement Learning [30.44007644340425]
本稿では,モンテカルロ木探索 (MCTS) とGRPOを統合した新しいフレームワーク PROPA について紹介する。
7つのベンチマークと4つのVLMバックボーンで、PROPAはSFTとRLVRベースのベースラインを一貫して上回っている。
ドメイン内タスクで最大17.0%、ドメイン外タスクで最大21.0%のゲインを達成する。
論文 参考訳(メタデータ) (2025-11-13T13:06:12Z) - Instructions are all you need: Self-supervised Reinforcement Learning for Instruction Following [58.60470643433354]
言語モデルは、現実世界のアプリケーションにとって重要なマルチ制約命令に従うのに苦労することが多い。
本稿では,外部監督に依存しないラベルフリーの自己監督型強化学習フレームワークを提案する。
本稿では,厳密な報酬問題に対処するために,制約分解戦略と効率的な制約ワイドバイナリ分類を導入する。
論文 参考訳(メタデータ) (2025-10-16T08:24:44Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Nudging the Boundaries of LLM Reasoning [77.26972440427285]
現在のオンライン強化学習アルゴリズムは、モデルに「解決不可能」な問題から学べない。
自己生成ヒントを用いてLLM推論の上界を推し進める「看護」手法であるNuRLを提案する。
NuRLは、テスト時間スケーリングを補完しながら、6つのベンチマークと3つのモデルで一貫した改善を実現している。
論文 参考訳(メタデータ) (2025-09-30T02:01:40Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。