論文の概要: Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently
- arxiv url: http://arxiv.org/abs/2606.22938v1
- Date: Mon, 22 Jun 2026 07:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:26:05.412205
- Title: Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently
- Title(参考訳): 推論モデルにおけるSFT上のRLVRの確率的メリット:効率的なバックトラック学習
- Authors: Stanley Wei, Juno Kim,
- Abstract要約: 我々は,強化微調整が純粋に監督された微調整よりも優れた推論能力をもたらす理由を分析する。
我々は、RLVRが推論チェーンにおける困難な決定の場所を学習し、最終的に推論時間計算のより良い割り当てを可能にしていることを示す。
- 参考スコア(独自算出の注目度): 11.385189497810025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated that reinforcement fine-tuning of pretrained base models can lead to significant gains in reasoning performance at inference time. In this work, we theoretically analyze why reinforcement fine-tuning induces better reasoning ability than purely supervised fine-tuning (SFT) methods. We model chain-of-thought (CoT) reasoning as a pathfinding problem on graphs and compare the popular method of reinforcement learning with verifiable rewards (RLVR) against traditional SFT. We prove that SFT, when trained on golden shortest paths without negative examples, fails to learn how to efficiently backtrack. In contrast, an RLVR-trained model can learn how to efficiently backtrack from dead ends using only outcome reward. This leads to an exponential separation in inference-time compute between the two methods, and demonstrates that RLVR leads the model to learn the location of difficult decisions in a reasoning chain, ultimately allowing for better allocation of inference-time compute. Finally, we show that the reasoning traces of an RLVR model can be distilled to train a base model to backtrack efficiently as well.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、事前訓練されたベースモデルの強化微調整により、推論時間における性能の推算が大幅に向上することを示した。
本研究では,強化微調整法が純粋に教師付き微調整法(SFT)よりも優れた推論能力をもたらす理由を理論的に解析する。
我々は、グラフ上のパスフィンディング問題としてチェーン・オブ・シント推論(CoT)をモデル化し、一般的な強化学習法と検証可能な報酬(RLVR)を従来のSFTと比較する。
SFTは, 負の例を伴わずに, 最短経路の訓練を行うと, バックトラックの効率のよい学習方法が得られないことを証明した。
対照的に、RLVR学習モデルでは、結果報酬のみを使用して、デッドエンドから効率的にバックトラックする方法を学ぶことができる。
これにより、2つの手法間の推論時間計算が指数関数的に分離され、RLVRが推論チェーンにおける難しい決定の場所を学習し、最終的に推論時間計算のより良い割り当てを可能にすることを示す。
最後に,RLVRモデルの推理トレースを蒸留して,ベースモデルからバックトラックを効率的に学習できることを示す。
関連論文リスト
- Reinforcement Learning from Denoising Feedback [22.358386875891053]
拡散言語モデル(dLLMs)の強化学習(RL)における政策損失推定は依然として基礎的かつ長期にわたる課題である。
本稿では、ロールアウトとトレーニングプロセスから得られたフィードバックを活用して、正確かつ効率的なポリシー損失推定を容易にする新しいトレーニングパラダイムであるReinforcement Learning from Denoising Feedback (RLDF)を紹介する。
RLDFは、複数の推論ベンチマークにおいて、2つの代表的なdLLMアーキテクチャであるLLaDAとDreamのパフォーマンスと一般化性の両方において、一貫性と実質的な改善を実現している。
論文 参考訳(メタデータ) (2026-05-25T09:39:13Z) - Learn Hard Problems During RL with Reference Guided Fine-tuning [56.56461712665904]
数学的推論のための強化学習(RL)は報酬の分散に悩むことがある。
本稿では,Reference-Guided Fine-Tuning (ReGFT)を導入し,ハード問題に対する正の軌道を合成し,RLの前にトレーニングする。
以上の結果から,ReGFTは報酬空間を効果的に克服し,より強力なRLに基づく数学的推論を解き放つことが示唆された。
論文 参考訳(メタデータ) (2026-03-01T18:41:28Z) - The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models [31.773914661815393]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要な手法である。
最近の証拠は、拡張するのではなく、パラドックス的に推論境界を縮小する可能性があることを示唆している。
本稿では,RLVRの学習力学を解析することにより,RLVRの縮小問題を考察する。
論文 参考訳(メタデータ) (2025-10-02T17:17:27Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。