論文の概要: Sparsity Curse: Understanding RLVR Model Parameter Space from Model Merging
- arxiv url: http://arxiv.org/abs/2606.18521v1
- Date: Tue, 16 Jun 2026 22:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.917582
- Title: Sparsity Curse: Understanding RLVR Model Parameter Space from Model Merging
- Title(参考訳): Sparsity Curse: モデルマージからRLVRモデルパラメータ空間を理解する
- Authors: Chenrui Wu, Zexi Li, Jiajun Bu, Jiangchuan Liu, Haishuai Wang,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Reward)は、スーパーバイザード・ファインチューニング(SFT)を超える強力なポストトレーニングパラダイムとして登場した。
近年の研究では、RLVRはSFTと比較してスパースおよびオフプリンシパルパラメータの更新を誘導している。
本稿では,RLVRパラメータ空間のユニークな構造に適したマージレシピであるSAR-Merging(Sensitivity-Aware Resolving Merging)を提案する。
- 参考スコア(独自算出の注目度): 35.66009296523317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful post-training paradigm that surpasses Supervised Fine-Tuning (SFT) in eliciting reasoning intelligence and resisting catastrophic forgetting. Recent studies further reveal that RLVR induces highly sparse and off-principal parameter updates compared to SFT. This naturally raises the question: does such sparsity make RLVR models more amenable to model merging? If so, model merging would offer a scalable, training-free path to aggregate diverse reasoning capabilities from independently trained RLVR models. Surprisingly, we find the opposite, uncovering a sparsity curse: the sparse RLVR updates are spread farther apart in parameter space, forming near-orthogonal shortcuts that make aggregation inherently fragile. This is likely rooted in the stochasticity of RL optimization and the diversity of emergent reasoning patterns. Unlike SFT models that converge to shared, flat basins and merge naturally, RLVR models suffer severe degradation under standard merging methods. Through systematic empirical analysis of the update geometry, we characterize the mechanisms behind this failure and propose Sensitivity-aware Resolving Merging (SAR-Merging), a merging recipe tailored for the unique structure of RLVR parameter spaces. SAR-Merging resolves conflicts in overlapping update regions via Fisher Information-based sensitivity arbitration, followed by magnitude-aware sparsification and rescaling to preserve fragile reasoning pathways. Experiments on mathematical and coding benchmarks demonstrate that SAR-Merging substantially outperforms existing merging methods on RLVR models, enabling both single-task enhancement and multi-capability fusion.
- Abstract(参考訳): Reinforcement Learning with Verifiable Reward (RLVR) は、推論インテリジェンスを引き合いに出し、破滅的な忘れを抑えるために、スーパーバイザード・ファインタニング(SFT)を超える強力なポストトレーニングパラダイムとして登場した。
近年の研究では、RLVRはSFTと比較してスパースおよびオフプリンシパルパラメータの更新を誘導することが明らかになっている。
このような空間性によって、RLVRモデルはモデルマージに対してより快適になるのだろうか?
もしそうなら、モデルマージは、独立に訓練されたRLVRモデルから多様な推論能力を集約する、スケーラブルでトレーニング不要なパスを提供するだろう。
スパースRLVRの更新はパラメータ空間で遠く離れて広がり、アグリゲーションが本質的に脆弱なほぼ直交のショートカットを形成します。
これは、RL最適化の確率性と、創発的推論パターンの多様性に根ざしている可能性が高い。
共有された平らな盆地に収束し自然に合流するSFTモデルとは異なり、RLVRモデルは標準マージ法の下で深刻な劣化を被る。
更新幾何の体系的な経験的解析を通じて,この失敗の背後にあるメカニズムを特徴づけ,RLVRパラメータ空間のユニークな構造に合わせた統合レシピである感性を考慮した解法(SAR-Merging)を提案する。
SAR-Mergingは、Fisher Informationベースの感度調停によって重なり合う更新領域の競合を解消し、次いでマグニチュード対応のスパリフィケーションと再スケーリングによって脆弱な推論経路を保存する。
数式および符号化ベンチマークの実験では、SAR-Mergingは既存のRLVRモデルのマージ手法を大幅に上回っており、シングルタスクの強化とマルチキャパビリティの融合が可能である。
関連論文リスト
- Understanding Diversity Collapse in RLVR via the Lens of Overtraining [78.37408098404312]
検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めるための重要なアプローチとなっている。
我々は、この多様性の崩壊をエンフェーバートレーニングのレンズを通してフォーマルに定式化する
本稿では,各問題の限界寄与を推論境界に推定することにより,オーバートレーニングから最適化をリダイレクトするemphBayesian boundary Gating (BBG)を提案する。
論文 参考訳(メタデータ) (2026-06-13T20:13:37Z) - Decouple before Integration: Test-time Synthesis of SFT and RLVR Task Vectors [26.233592394784868]
タスクベクトルのレンズを用いてSFTとRLVRを解析する。
本稿では,SFT と RLVR のチェックポイントを独立してトレーニングできるように,Decoupled Test-time Synthesis (DoTS) を提案する。
論文 参考訳(メタデータ) (2026-05-01T12:20:44Z) - Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration [88.7332439088792]
大規模言語モデル(LLM)に対する検証可能な報酬(RLVR)による強化学習のスケーリングが,効果的なトレーニングパラダイムとして登場した。
我々は低ランク軌跡のtextbfNonlinear textbfExtrapolation(textbfNExt)を提案する。
計算オーバーヘッドを約37.5%削減し,RLVRアルゴリズムやタスクとの互換性を維持した。
論文 参考訳(メタデータ) (2026-04-13T13:28:12Z) - MAR-GRPO: Stabilized GRPO for AR-diffusion Hybrid Image Generation [24.618644100413018]
強化学習(RL)は自己回帰(AR)と拡散モデルにうまく応用されている。
RLをハイブリッドAR拡散フレームワークに拡張することは、インターリーブ推論とノイズの多いログ確率推定のために依然として難しい。
本研究では,マスク付き自己回帰モデル(MAR)について検討し,拡散ヘッドが運動学のトレーニングにおいて重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2026-04-08T11:30:35Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Beyond Parameter Arithmetic: Sparse Complementary Fusion for Distribution-Aware Model Merging [20.429700094073684]
本稿では,スパース・分散対応更新による機能的干渉を明示的に制御する新しいモデル統合フレームワークである,逆KL(SCF-RKL)を用いたスパース補完核融合を提案する。
我々は,SCF-RKLを多種多様なモデルスケールとアーキテクチャで評価し,推論型モデルと命令型モデルの両方を網羅した。
論文 参考訳(メタデータ) (2026-02-12T08:45:42Z) - Do Reasoning Models Enhance Embedding Models? [48.43242995118735]
最先端の埋め込みモデルは、対照的な学習によって適応されたデコーダのみの大規模言語モデルバックボーンから、ますます派生している。
RLVRで調整したバックボーンの埋め込みモデルでは,同一のトレーニングレシピを適用した場合,ベースボーンに対して一貫した性能上の優位性は得られなかった。
論文 参考訳(メタデータ) (2026-01-29T02:48:34Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。