論文の概要: When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff
- arxiv url: http://arxiv.org/abs/2606.09932v1
- Date: Sun, 07 Jun 2026 17:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.061229
- Title: When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff
- Title(参考訳): SFT後にRLが故障した場合:ロバストSFT-RLハンドオフのためのモデル塑性の回復
- Authors: Runze Liu, Jiashun Liu, Xu Wan, Yuqian Fu, Ling Pan,
- Abstract要約: Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、Large Language Model (LLM) のポストトレーニングの標準パイプラインとなっている。
我々は,SFTが獲得した有用な先行情報を保存しながら,可塑性を回復する簡易かつ効果的な方法であるtextttRejuvenation を提案する。
- 参考スコア(独自算出の注目度): 26.877673871807612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) has become a standard pipeline for Large Language Model (LLM) post-training. SFT is expected to provide a useful behavioral prior for RL to further enhance model capabilities. However, checkpoints with excessive SFT often show limited improvement during RL. We attribute this failure to the loss of model plasticity: the reduced ability of an SFT-initialized policy to be effectively reshaped by subsequent RL. To better understand this phenomenon, we conduct detailed analysis from multiple perspectives, including parameter changes, output spaces, and RL optimization dynamics. Our results show that models from excessive SFT tend to produce over-confident token distributions and exhibit sharp parameter landscapes, which make them harder to optimize in the RL stage. To enable a more robust SFT-to-RL handoff, we propose \texttt{Rejuvenation}, a simple yet effective method that restores plasticity while preserving useful SFT-acquired priors. Rejuvenation leverages base-anchored model fusion to reduce excessive SFT-induced drift with targeted neuron reset to mitigate model rigidity. Experimental results on both math reasoning tasks and agentic tasks demonstrate that our approach consistently improves RL performance on over-trained SFT models, while also enhancing generalization to out-of-distribution tasks.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、Large Language Model (LLM) のポストトレーニングの標準パイプラインとなっている。
SFTは、RLがモデル機能をさらに強化するために有用な行動前処理を提供すると期待されている。
しかし, SFT が過剰なチェックポイントでは, RL の期間に制限的な改善が見られた。
この失敗は、SFT初期化政策がその後のRLによって効果的に再形成される能力の低下という、モデル可塑性の喪失に起因している。
この現象をよりよく理解するために、パラメータ変化、出力空間、RL最適化ダイナミクスなど、複数の観点から詳細な解析を行う。
以上の結果から,過大なSFTモデルでは高信頼なトークン分布が生成され,シャープなパラメータランドスケープが生じる傾向にあり,RLの段階での最適化が困難であることが示された。
よりロバストなSFT-to-RLハンドオフを実現するために,有用なSFT取得前の情報を保存しつつ,可塑性を回復する簡単な方法である‘texttt{Rejuvenation} を提案する。
Rejuvenationはベースアンコールドモデル融合を利用して、標的ニューロンリセットによる過剰なSFT誘発ドリフトを低減し、モデル剛性を緩和する。
数学推論タスクとエージェントタスクの両方の実験結果から,オーバートレーニングされたSFTモデルのRL性能を一貫して向上すると同時に,アウト・オブ・ディストリビューションタスクへの一般化も向上することが示された。
関連論文リスト
- Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models [52.11240605311707]
改良された微調整と強化学習は、大規模言語モデルの訓練後の標準パラダイムとなっている。
EKSFT(Entropy-KL Selective Fine-Tuning)は,参照モデルから高いエントロピーまたは高いKLの発散を示すトークンを選択的にマスクする。
数学的推論ベンチマークに関する実証的な評価は、EKSFTが標準SFTを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-28T03:36:05Z) - Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning [8.550698116833123]
推論LDMの訓練後は通常、オフラインのSFTステージとオンラインの強化学習ステージで構成される。
同一のRLトレーニングの後、より強力なSFTチェックポイントのモデルの方が、より弱いモデルよりもはるかに性能が低いことを示す。
本稿では、このミスマッチを補正し、RLのモデルを改善するSFT段法であるPEARを提案する。
論文 参考訳(メタデータ) (2026-02-01T06:53:45Z) - On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training [10.433802085981046]
強化学習(RL)を用いたSFT指導型大規模言語モデルの学習後学習
RLはSFT最適性の下でSFT損失を増大させ、SFTはRLが達成した報酬を低下させることを示す。
Qwen3-0.6Bの実験では予測された劣化が確認され、SFTとRLは訓練後の性能を失うことなく分離できないことが確認された。
論文 参考訳(メタデータ) (2026-01-12T10:14:09Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-10-29T22:05:08Z) - RL Fine-Tuning Heals OOD Forgetting in SFT [35.01074051556079]
スーパービジョン・ファインチューニングと強化学習の相乗効果の進化とメカニズムを考察する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
論文 参考訳(メタデータ) (2025-09-08T21:40:41Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。