論文の概要: ExpRL: Exploratory RL for LLM Mid-Training
- arxiv url: http://arxiv.org/abs/2606.17024v1
- Date: Mon, 15 Jun 2026 17:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.127531
- Title: ExpRL: Exploratory RL for LLM Mid-Training
- Title(参考訳): ExpRL:LLMミッドトレーニングのための探査RL
- Authors: Violet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral Kumar,
- Abstract要約: スパース報酬強化学習(RL)はLLM推論を改善するための標準ツールとなっている。
より自動化されたアプローチについて検討する: emphRL に基づく中級訓練において、人間による質問応答データの大規模なコーパスを用いて検討する。
参照はポリシーから隠され、問題固有のグレーディングルーブを構築するためにのみ使用される。
- 参考スコア(独自算出の注目度): 40.4311030968937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse reward reinforcement learning (RL) has become a standard tool for improving LLM reasoning, but its success depends critically on the coverage present in the base model. In practice, models are often primed for RL through \emph{mid-training} on curated reasoning traces that teach useful primitive skills such as decomposition, verification, or self-correction. Although effective, this strategy requires manually specifying what the model should learn, and it remains unclear whether such primitive coverage is enough for much harder problems, which require combining these skills into broader solution strategies. We study a more automated approach: \emph{RL-based mid-training} using large corpora of human-written question-answer data. Rather than treating reference solutions as targets to imitate, our method, ExpRL, uses them as \emph{reward scaffolds}: references are hidden from the policy and used only to construct problem-specific grading rubrics for judging on-policy reasoning traces. The policy samples from the original problem prompt, while an LLM judge compares the sampled reasoning trace against the reference solution and assigns outcome-level or process-level dense rewards. This lets ExpRL reinforce partial progress, useful intermediate reductions, and productive reasoning behaviors that sparse final-answer rewards often fail to upweight. On challenging math reasoning tasks, ExpRL yields stronger RL priming than SFT, sparse-reward GRPO, and self-distillation, and provides a better initialization for subsequent sparse-reward RL. Additional mixed-domain experiments further suggest that ExpRL can extend beyond the original math-only setting.
- Abstract(参考訳): スパース報酬強化学習(RL)はLLM推論を改善するための標準ツールとなっているが、その成功はベースモデルに存在するカバレッジに大きく依存する。
実際には、モデルはしばしば、分解、検証、自己補正のような有用な原始的スキルを教えるキュレートされた推論トレースに基づいて、emph{mid-training} を通じて RL に優先順位付けされる。
この戦略は効果的ではあるが、手動でモデルが何を学習するかを指定する必要があり、そのような原始的カバレッジがより難しい問題に十分であるかどうかは不明だ。
より自動化されたアプローチについて検討する: 人書き質問応答データの大規模なコーパスを用いて、emph{RL-based mid-training} について検討する。
リファレンスソリューションを模倣するターゲットとして扱うのではなく、ExpRL はそれらを 'emph{reward scaffolds} として利用する。
LLM審査員は、サンプルされた推論トレースを基準解と比較し、結果レベルまたはプロセスレベルの厳密な報酬を割り当てる。
これによりExpRLは部分的な進歩、有用な中間還元、そして最終回答の報酬が不足する生産的推論行動を強化することができる。
挑戦的な数学推論タスクでは、ExpRL は SFT よりも強い RL プライミング、スパースリワードGRPO 、自己蒸留が得られ、その後のスパースリワード RL に対してより良い初期化を提供する。
さらに混合領域の実験により、ExpRLは元の数学のみの設定を超えて拡張可能であることが示唆された。
関連論文リスト
- Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes [22.721425502443253]
我々はPrefixRLを導入し、そこでは、成功裏のトレースのプレフィックスを条件にし、それらを完了させるために、オンデマンドのRLを実行します。
PrefixRLは、問題の難易度を政治外接頭辞の長さで調節することで、難しい問題に対する学習信号を強化する。
我々はPrefixRLの目的が標準RLの目的と一致しているだけでなく、より効率的なことを証明する。
論文 参考訳(メタデータ) (2026-01-26T18:57:00Z) - Cog-Rethinker: Hierarchical Metacognitive Reinforcement Learning for LLM Reasoning [14.57256913655025]
LLM推論のための新しい階層的メタ認知的RLフレームワークであるCog-Rethinkerを提案する。
我々のCog-Rethinkerは主にRLトレーニングのロールアウト手順に焦点を当てています。
問題解決において人間の認識を活用することにより、ゼロ精度の問題をサブプロブレムに分解するようポリシーに促す。
論文 参考訳(メタデータ) (2025-10-13T08:16:21Z) - Nudging the Boundaries of LLM Reasoning [77.26972440427285]
現在のオンライン強化学習アルゴリズムは、モデルに「解決不可能」な問題から学べない。
自己生成ヒントを用いてLLM推論の上界を推し進める「看護」手法であるNuRLを提案する。
NuRLは、テスト時間スケーリングを補完しながら、6つのベンチマークと3つのモデルで一貫した改善を実現している。
論文 参考訳(メタデータ) (2025-09-30T02:01:40Z) - Decomposing Elements of Problem Solving: What "Math" Does RL Teach? [22.517954679764244]
私たちは問題解決を、計画、実行、検証という基本的な機能に分解します。
RLを訓練したモデルは、計画スキルが不十分なため、基本的に新しい問題に悩まされ、"カバーウォール"にぶつかっていることを示す。
本研究は, LLM推論の強化におけるRLの役割について考察し, 重要な限界を明らかにするとともに, これらの障壁を克服するための道筋を示唆する。
論文 参考訳(メタデータ) (2025-05-28T18:18:49Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。