論文の概要: Self-Improvement Can Self-Regress: The Rise-and-Collapse Failure Mode of LLM Self-Training
- arxiv url: http://arxiv.org/abs/2606.21090v1
- Date: Wed, 17 Jun 2026 18:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 08:27:29.505977
- Title: Self-Improvement Can Self-Regress: The Rise-and-Collapse Failure Mode of LLM Self-Training
- Title(参考訳): 自己改善は自己回帰を可能にする:LDM自己学習の上昇・崩壊失敗モード
- Authors: Jianzhe Lin,
- Abstract要約: 自己改善は、コードトレーニング後のREINFORCEで自己回帰できる。
本研究は,Qwen-2.5-3BとQwen-2.5-7Bを用いたマルチシードテストベッドで行った。
- 参考スコア(独自算出の注目度): 2.743683637024251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-improvement can self-regress. In REINFORCE post-training for code, a model can quickly improve on its optimized metric and then collapse within the same training campaign. We study this in a controlled multi-seed testbed using Qwen-2.5-3B and Qwen-2.5-7B, trained on competitive-programming tasks with binary CodeGrader reward across 10 sequential 20-step campaigns. Across campaigns, pass@1 shows a robust rise-then-collapse pattern: it peaks within tens of gradient steps and then falls back, sometimes to near zero. This is not cross-task catastrophic forgetting, but within-task policy over-optimization on a fixed distribution; KL- and EWC-style constraints do not prevent it. We ask where the control loop should sit. We compare three levels: CARE, a between-campaign memory mechanism with a capability posterior, transfer gate, and regression-aware belief revision; ES, a within-campaign early-stop rule that rolls forward the peak checkpoint and sets the next budget to peak_step+3; and GRPO, which changes the RL update using group-relative reward normalization. The answer is regime-dependent. On Qwen-2.5-3B, where naive REINFORCE is fragile, CARE v2 nearly doubles end-of-chain pass@1 from 4.9% to 9.5%, with paired bootstrap 95% CI [+0.4,+8.9] and gains in 4/5 seeds. On Qwen-2.5-7B, CARE reaches parity with naive REINFORCE, 13.8% vs. 11.8%, while ES reaches 22.2% [14.1,28.0]. Out-of-the-box GRPO reaches 20.7% [15.7,25.1], nearly matching REINFORCE+ES. GRPO raises the floor but does not remove the cliff. Its 7B gain mainly comes from better between-campaign carryover, while the within-campaign peak-to-end gap remains about 17 points under both REINFORCE and GRPO. GRPO+ES gives mixed evidence: 2/3 seeds improve, but one final cliff lowers the mean to 17.0% [0.0,28.1]. A Gemma-3-4B pilot shows the same signature, suggesting the phenomenon is not limited to Qwen.
- Abstract(参考訳): 自己改善は自己回復できる。
コードに対するREINFORCEのポストトレーニングでは、モデルは最適化されたメトリックを素早く改善し、同じトレーニングキャンペーンで崩壊する。
Qwen-2.5-3B と Qwen-2.5-7B を用いて,これを制御したマルチシードテストベッドで検討した。
キャンペーン全体では、pass@1は安定して上昇し、崩壊するパターンを示している。
これはクロスタスクの破滅的な忘れ物ではないが、固定分布上での過度な最適化は、KL-およびEWC-スタイルの制約は、それを妨げない。
コントロールループがどこにあるべきかを尋ねます。
CARE, 機能後部, 転送ゲート, レグレッション対応信念リビジョン, ES, ピークチェックポイントをロールアウトし, 次の予算をピーク_step+3に設定する GRPO, グループ相対報酬正規化を用いてRL更新を変更する GRPO の3レベルを比較した。
答えは政権に依存している。
Qwen-2.5-3Bでは、単純なREINFORCEが壊れやすいため、CARE v2はエンド・オブ・チェーンパス@1を4.9%から9.5%にほぼ倍増させ、ペアブートストラップ95%CI[+0.4,+8.9]で4/5シードを得る。
Qwen-2.5-7Bでは、CAREは13.8%対11.8%、ESは22.2%[14.1,28.0]である。
アウト・オブ・ザ・ボックス GRPO は 20.7% [15.7,25.1] に達し、REINFORCE+ES とほぼ一致する。
GRPOは床を上げるが崖を外さない。
7Bのゲインは主にキャンプ間の輸送の改善によるもので、キャンプ内のピーク・ツー・エンドのギャップはREINFORCEとGRPOの両方で17ポイント程度残っている。
GRPO+ESは2/3の種が改良されるが、最後の崖は平均を17.0%[0.0,28.1]まで下げる。
Gemma-3-4Bのパイロットは同じ記号を示し、この現象はQwenに限らないことを示唆している。
関連論文リスト
- GRPO Does Not Close the Multi-Agent Coordination Gap [0.0]
我々は、複数のエージェントが共通のリソースを共有するときに、現在の大規模言語モデルがどのように協調するかを測定する。
7つのモデルと3つの哲学者数にまたがる630回にわたって、4つのフロンティアのクローズドソースシステムは平均報酬0.45から0.87に達した。
マルチエージェント調整におけるオープンウェイト14Bモデルのボトルネックは、トレーニング計算ではなく、トレーニング方法論である。
論文 参考訳(メタデータ) (2026-06-05T21:13:14Z) - Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works [19.92945464084119]
Group Relative Policy Optimization (GRPO) は、検証可能な報酬からの強化学習のための標準アルゴリズムである。
我々は、真の退化率は、常にジェンセンの不等式によるベルヌーイ予想を超えることを証明している。
固定参照符号の利点である$A=2r-1$は、グループ内の少なくとも1つのサンプルが成功する確率を高めて、pass@$G$失敗降下を実行することを示す。
論文 参考訳(メタデータ) (2026-05-08T12:58:06Z) - Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime [28.346931878148524]
Prefix Sampling (PS)は、自己生成した軌跡の接頭辞を再生し、スキュードグループをこの体制に向けて操る。
PSは評価変数のベースラインのハイスコア状態に達し、2.01xと1.55xのエンドツーエンドのウォールクロックスピードアップを提供する。
AIME 2025は4Bと8Bで同じパスレート制御パターンを示した。
論文 参考訳(メタデータ) (2026-05-06T16:44:38Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL [1.9507810024568648]
PPOやGRPOのような強化学習(RL)手法を用いた大規模言語モデル(LLM)の訓練は、更新の安定化に比例する。
重要度を計算する前に、従来の(行動)政策に対する現在の政策の確率を円滑にするPSPOを提案する。
GR-PSPOはクリップされたGRPOと比較して0.5Bと1.5Bの両方のパフォーマンスを大幅に改善し、GSM8Kでは20%以上向上した。
論文 参考訳(メタデータ) (2025-09-25T15:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。