論文の概要: SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR
- arxiv url: http://arxiv.org/abs/2606.18487v2
- Date: Mon, 22 Jun 2026 09:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.70277
- Title: SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR
- Title(参考訳): RLVR下でのエントロピー崩壊によるSFTオーバートレーニングによるランクインバージョン予測
- Authors: Siddharth Aphale, Kelly Liu,
- Abstract要約: GRPOの最高パス@1でSFTチェックポイントを選択する基準は、SFTがロールアウト分布を圧縮すると失敗する。
本稿では,Qwen2.5-Coder-3BとDeepSeek-Coder-6.7BのSFT深さはしごについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard heuristic of selecting the SFT checkpoint with the highest pass@1 for GRPO can fail when SFT compresses the rollout distribution. For binary rewards, the expected within group advantage variance is $p(1{-}p)(g{-}1)/g$; when early GRPO drives $p$ below $p^*(g)$, most groups have identical rewards and provide no group relative signal. We study SFT depth ladders for Qwen2.5-Coder-3B and DeepSeek-Coder-6.7B. We test Qwen2.5-Coder-3B across five depths and three seeds, and DeepSeek-Coder-6.7B across four matched depths and three seeds. On Qwen, pre RL pass@1 rises with SFT depth, but peak GRPO pass@10 falls from $0.806$ to $0.481$ (3 seed mean, $n{=}20$); pre RL entropy is positively associated with the GRPO outcome ($ρ{=}{+}0.69$). On DeepSeek, pass@1 remains far above $p^*(8){=}0.083$, and GRPO outcomes compress rather than invert. A two stage diagnostic, combining pre RL entropy triage with an early GRPO entropy monitor, flags high risk checkpoints and can stop failing runs early. Simple KL to reference regularisation and label smoothing variants do not rescue the collapsed Qwen checkpoint in our setting, suggesting the failure is not a trivial GRPO hyperparameter artefact.
- Abstract(参考訳): SFTがロールアウト分布を圧縮すると、GRPOに対して最高パス@1でSFTチェックポイントを選択するという標準的なヒューリスティックが失敗する。
二項報酬の場合、グループ内の利点分散は$p(1{-}p)(g{-}1)/g$; 初期のGRPOが$p$以下のとき、ほとんどのグループは同じ報酬を持ち、グループ相対的な信号を提供しない。
本研究では,Qwen2.5-Coder-3BとDeepSeek-Coder-6.7BのSFT深さはしごについて検討する。
Qwen2.5-Coder-3Bを5つの深さと3つのシードで、DeepSeek-Coder-6.7Bを4つのマッチした深さと3つのシードでテストした。
Qwenでは、プレRL pass@1はSFT深さとともに上昇するが、ピークGRPO pass@10は、0.806$から0.481$(シード平均、$n{=}20$)となる。
DeepSeekでは、pass@1は$p^*(8){=}0.083$よりもはるかに高く、GRPOの結果は逆ではなく圧縮される。
RLエントロピー前のトリアージと初期のGRPOエントロピーモニターを組み合わせた2段階の診断は、高いリスクチェックポイントをフラグ付けし、早期に障害発生を止めることができる。
単純な KL による正規化やラベルの平滑化は,崩壊した Qwen チェックポイントを救えず,その失敗は自明な GRPO ハイパーパラメータアーティファクトではないことを示唆している。
関連論文リスト
- VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - Cast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning [8.638696735781478]
Coordinated Pass@$K$ Policyは、pass@$K$ジェネレーションを戦略に関する共同調査に変える。
APPS、CodeContests、LiveCodeBench-v6全体で、CPPOは、直接サンプリング、プランニングベースライン、プランナーのみのSFT、パス@$K$-orientedで、同じ$K=4$ソルバ回避予算で、pass@4$を改善している。
論文 参考訳(メタデータ) (2026-05-26T13:21:11Z) - Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works [19.92945464084119]
Group Relative Policy Optimization (GRPO) は、検証可能な報酬からの強化学習のための標準アルゴリズムである。
我々は、真の退化率は、常にジェンセンの不等式によるベルヌーイ予想を超えることを証明している。
固定参照符号の利点である$A=2r-1$は、グループ内の少なくとも1つのサンプルが成功する確率を高めて、pass@$G$失敗降下を実行することを示す。
論文 参考訳(メタデータ) (2026-05-08T12:58:06Z) - Self-Hinting Language Models Enhance Reinforcement Learning [37.311361929798714]
我々は、権限付き監督(SAGE)を備えた自己隠れ型GRPOを提案する。
SAGEはトレーニング中に特権付きヒントを注入し、同じ端末検証者報酬の下でロールアウト分布を再生成する。
3つのLSMを持つ6つのベンチマーク実験の結果、SAGEはGRPOを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-03T05:56:20Z) - RePO: Understanding Preference Learning Through ReLU-Based Optimization [66.098833436503]
本稿では,ReLUに基づくPreference Optimization (RePO)を提案する。
RePOは、ロジスティック重み付けが二項しきい値に崩壊するSimPOの制限ケース(「infty$」の略)として特徴付けられる。
AlpacaEval 2 と Arena-Hard の実証結果は、RePO が複数のベースモデルで DPO と SimPO を上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-10T15:11:07Z) - Reinforcement Learning with Verifiable Rewards: GRPO's Effective Loss, Dynamics, and Success Amplification [10.617854230082896]
グループ相対政策最適化は、検証可能な(バイナリ)報酬の下でLLMの推論を促進するために最近導入された。
我々は、報酬正規化(平均のみ対平均+分散)とKL分散を用いた更新の正則化の仕方が異なる変種を解析する。
論文 参考訳(メタデータ) (2025-03-09T14:36:45Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - SQT -- std $Q$-target [47.3621151424817]
Std $Q$-targetは、保守的でアクター批判的でアンサンブルで、Q$ラーニングベースのアルゴリズムである。
我々は、TD3/TD7コード上にSQTを実装し、最先端(SOTA)アクター批判アルゴリズムに対してテストする。
SQT の $Q$-target 式は TD3 の $Q$-target 式よりも優れており,RL の過大評価バイアスに対する保守的解である。
論文 参考訳(メタデータ) (2024-02-03T21:36:22Z) - Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。