論文の概要: Understanding Diversity Collapse in RLVR via the Lens of Overtraining
- arxiv url: http://arxiv.org/abs/2606.15455v1
- Date: Sat, 13 Jun 2026 20:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.583698
- Title: Understanding Diversity Collapse in RLVR via the Lens of Overtraining
- Title(参考訳): オーバートレーニングレンズによるRLVRの多様性崩壊の理解
- Authors: Suqin Yuan, Jinkun Chen, Jiyang Zheng, Muyang Li, Lei Feng, Dadong Wang, Tao Xiang, Tongliang Liu, Bo An,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めるための重要なアプローチとなっている。
我々は、この多様性の崩壊をエンフェーバートレーニングのレンズを通してフォーマルに定式化する
本稿では,各問題の限界寄与を推論境界に推定することにより,オーバートレーニングから最適化をリダイレクトするemphBayesian boundary Gating (BBG)を提案する。
- 参考スコア(独自算出の注目度): 78.37408098404312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a key approach for enhancing the reasoning abilities of large language models. However, RLVR often suffers from \emph{diversity collapse}: Pass@$1$ improves while high-$k$ Pass@$k$ degrades, which is viewed as a narrowing of the model's reasoning boundary. We formalize this diversity collapse through the lens of \emph{overtraining}: once a problem's contribution to the reference metric has effectively saturated, further updates no longer expand what the model can solve but still concentrate probability mass on the trajectories favored by on-policy sampling. Under a standard setup with few rollouts per problem, even a single observed success places a problem in a nearly saturated regime for high-$k$ Pass@$k$, so most updates in standard RLVR are overtraining from the boundary perspective. This perspective also suggests a reading of whether RLVR can expand the model's reasoning abilities beyond the base model: since RLVR is structurally biased against high-$k$ Pass@$k$, its aggregate decline does not by itself mean that no new reasoning gains occurred. Interventionally, restricting updates to problems with zero observed success lifts Pass@$256$ above the base model on difficult benchmarks; observationally, a non-trivial fraction of initially unsolvable problems become solvable during standard RLVR training. Building on these findings, we propose \emph{Bayesian Boundary Gating} (BBG), which redirects optimization away from overtraining by estimating each problem's marginal contribution to the reasoning boundary. Across multiple reasoning benchmarks, BBG improves average Pass@$k$ across a wide range of $k$.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めるための重要なアプローチとなっている。
しかし、RLVRは、しばしば \emph{diversity collapse} に苦しむ: Pass@$1$は改善され、 High-$k$ Pass@$k$ degrades は、モデルの推論境界を狭めるものと見なされる。
参照計量への問題の寄与が効果的に飽和すると、さらなる更新はモデルが解決できる範囲を広げることなく、オンラインサンプリングで好まれる軌道に確率質量を集中させる。
問題ごとのロールアウトがほとんどない標準設定の下では、単一の成功例でさえ、高い$k$ Pass@$k$のほぼ飽和した状態に問題を置いているため、標準RLVRのほとんどの更新は境界面から過度にトレーニングされている。
この視点はまた、RLVRがベースモデルを超えてモデルの推論能力を拡張することができるかどうかについても言及している。
興味深いことに、観測された成功率ゼロの問題の更新を制限することは、難しいベンチマークでベースモデルより上位にPass@$256$を持ち上げる。
これらの結果に基づいて,各問題の限界的寄与を推論境界に推定することにより,オーバートレーニングから最適化をリダイレクトする「emph{Bayesian boundary Gating} (BBG)」を提案する。
複数の推論ベンチマークを通じて、BBGは平均的なPass@$k$を、幅広い$k$で改善する。
関連論文リスト
- Learning to Solve, Forgetting to Retain: Correct-Set Turnover in RLVR [16.681943272535104]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデルの能力を向上させるが、見出し精度の向上は隠れたコストを隠蔽することが多い。
我々は、マスタされたプロンプトを追跡し、それを定期的に再導入して、過去のソリューションのモデルをtextbfremindに再導入するリテンション対応レビューメカニズムであるtextbfmethodを提案する。
論文 参考訳(メタデータ) (2026-06-02T03:17:34Z) - SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs [55.46289074417954]
検証可能な報酬(RLVR)による強化学習は、推論タスクのpass@1を確実に改善するが、pass@kでは同等の利得を得られないことが多い。
中心的な構造的制約は、トレーニングを安定させるが、本質的には基準分布にポリシーを固定する逆-KL正規化から生じる。
我々は,逆KLアンカー分布自体を再構成することで,制御可能な経験的サポート拡張を可能にする,原則化されたフレームワークであるSAGEを提案する。
論文 参考訳(メタデータ) (2026-05-15T07:42:21Z) - LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards [51.45138356629732]
我々は,疎解報酬を高密度で検証可能な文脈報酬で増強するためにLongRLVRを導入する。
この補助信号は、正しい接地情報を選択するためのモデルを直接インセンティブ化する。
LongRLVRは、すべてのモデルとベンチマークで標準のRLVRよりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2026-03-02T18:07:53Z) - The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models [31.773914661815393]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要な手法である。
最近の証拠は、拡張するのではなく、パラドックス的に推論境界を縮小する可能性があることを示唆している。
本稿では,RLVRの学習力学を解析することにより,RLVRの縮小問題を考察する。
論文 参考訳(メタデータ) (2025-10-02T17:17:27Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - The Invisible Leash: Why RLVR May or May Not Escape Its Origin [47.488691410579925]
RLVRの現在の実践がモデルの推論境界を真に拡張するかどうかは不明である。
現在の訓練条件下では、RLVRはサポート制約付き最適化メカニズムとして動作することができる。
RLVRは精度を確実に向上させるが、探索は徐々に狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
論文 参考訳(メタデータ) (2025-07-20T07:04:08Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。