Fugu-MT 論文翻訳(概要): Sparrow: Sparse Rollout for Stable and Efficient Long-context RL of Large Language Models

論文の概要: Sparrow: Sparse Rollout for Stable and Efficient Long-context RL of Large Language Models

arxiv url: http://arxiv.org/abs/2606.08446v1
Date: Sun, 07 Jun 2026 04:24:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.111258
Title: Sparrow: Sparse Rollout for Stable and Efficient Long-context RL of Large Language Models
Title（参考訳）: Sparrow: 大規模言語モデルの安定かつ効率的な長文RLのためのスパースロールアウト
Authors: Yang Zhou, Ranajoy Sadhukhan, Zhaofeng Sun, Zhuoming Chen, Souvik Kundu, Saket Dingliwal, Sai Muralidhar Jayanthi, Aram Galstyan, Haizhong Zheng, Beidi Chen,
Abstract要約: 検証可能な報酬(RLVR)による強化学習は、非常に長いCOTを誘導し、計算コストがかかる。我々は、このトレードオフを、スパース・トゥ・デンス・アクター・ポリティカのミスマッチを通して研究する。軽いLoRAをベースとしたスパースロールアウトによる蒸留により、より攻撃的なスパシティは同じスパース・トゥ・デンス・ミスマッチ閾値に達することができ、より高いスピードアップが得られる。
参考スコア（独自算出の注目度）: 45.9244309251483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite being powerful, reinforcement learning with verifiable rewards (RLVR) induces extremely long COT, making it computationally expensive. Since RLVR per-step cost is dominated by long-context rollout generation, sparse attention offers a promising way to accelerate dense rollout. However, sparse rollouts require a delicate stability-efficiency tradeoff: overly aggressive sparsity causes collapse, while overly lenient sparsity gives insufficient speedup. In this work, we study this tradeoff through sparse-to-dense actor-policy mismatch. We first observe that sparse rollout collapse is not driven by uniform degradation across tokens: most sparse tokens align perfectly with dense even under aggressive sparsity. Motivated by this, we hypothesize that sparse rollout training remains stable if the lower tail of per-token actor-policy mismatch stays above a critical threshold throughout the trajectory. We introduce a dynamic sparsity schedule that keeps this tail statistic constant during generation and validate our hypothesis. Across Qwen3 thinking-family models, keeping the tail mismatch statistic near a consistent threshold generally enables stable training. We then use a cost model to find the sparsity schedule for maximum speedup under this mismatch threshold, achieving 2.2x, 2.4x, and 2.0x rollout speedups when training Qwen3-1.7B, Qwen3-4B, and Qwen3-8B. Empirically, we show the thresholds generalize to a larger model (Qwen3-14B) and another RL domain (coding). Finally, our analysis naturally motivates DistillSparse: lightweight LoRA-based distillation on sparse rollout lets more aggressive sparsity reach the same sparse-to-dense mismatch threshold, yielding higher speedup.
Abstract（参考訳）: 強力なにもかかわらず、検証可能な報酬(RLVR)による強化学習は極めて長いCOTを誘導し、計算コストがかかる。ステップあたりのRLVRコストは、長時間コンテキストのロールアウト生成によって支配されるため、スパースアテンションは、高密度ロールアウトを加速する有望な方法を提供する。しかし、スパースロールアウトは微妙な安定性と効率のトレードオフを必要とし、過度に攻撃的なスパーシリティは崩壊を引き起こす一方、過度に寛大なスパーシリティは不十分なスピードアップをもたらす。本研究では,このトレードオフを,スパース・トゥ・ディエンス・アクター・政治ミスマッチを用いて検討する。スパースロールアウト崩壊は、トークン間の均一な分解によって引き起こされるものではなく、ほとんどのスパーストークンは、攻撃的な間隔の下でも完全に密に整合している。このことから,1対1の俳優・政治ミスマッチの尻尾が軌道全体において重要なしきい値を超えている場合,スパースロールアウトトレーニングは安定しているという仮説を立てた。我々は、この尾の統計定数を生成中に保ち、我々の仮説を検証するダイナミックなスパーシティスケジュールを導入する。 Qwen3の思考ファミリーモデル全体で、尾のミスマッチ統計を一貫したしきい値付近に保持することは、一般に安定したトレーニングを可能にする。次に、コストモデルを用いて、このミスマッチしきい値下での最大スピードアップのスパーシティスケジュールを求め、Qwen3-1.7B、Qwen3-4B、Qwen3-8Bのトレーニング時に2.2x、2.4x、2.0xのロールアウトスピードアップを達成する。経験的に、閾値はより大きなモデル(Qwen3-14B)と別のRLドメイン(コーディング)に一般化される。最後に、我々の分析は自然にDistillSparseを動機付けている: スパースロールアウトにおける軽量のLoRAベースの蒸留により、より攻撃的なスパシティが同じスパース・トゥ・デンス・ミスマッチ閾値に達し、より高いスピードアップをもたらす。

関連論文リスト

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps [12.944531570933854]
大規模言語モデルにおける長文推論は、注意の2次コストによってボトルネックとなる。フルアテンション LLM は本質的にスパースであり,最小限の適応しか持たない高度スパースモデルに変換可能であることを示す。 RTPurboは、モデル固有のスパーシリティを活用することで、わずか数百のトレーニングステップでスパーシフィケーションを実現する。
論文参考訳（メタデータ） (2026-05-16T10:51:58Z)
AIS: Adaptive Importance Sampling for Quantized RL [21.387834718338496]
大規模言語モデル(LLM)の強化学習はロールアウト生成のコストに支配されている。これは、ロールアウトトレーニングミスマッチを導入し、ポリシー勾配を偏り、推論ベンチマークでトレーニングが完全に崩壊する可能性がある。このミスマッチは非定常的であり、二重刃の剣として機能し、初期のトレーニングでは探索ボーナスを提供し、トレーナーがアンダーサンプするトラジェクトリーへの勾配を露呈する。本稿では,適応的重要度サンプリング(AIS)を提案する。
論文参考訳（メタデータ） (2026-05-13T03:36:57Z)
How to Compress KV Cache in RL Post-Training? Shadow Mask Distillation for Memory-Efficient Alignment [9.677772092448265]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の高度な推論能力を解き放つための重要なパラダイムとして登場した。オンラインRLは本質的に探索軌道生成(ロールアウト)フェーズを必要とする。ロールアウト中にKVキャッシュ圧縮を適用すると、このメモリオーバーヘッドが軽減されるが、重要な非政治バイアスを引き起こす。重要度の再重み付けのような既存の統計解は、この拡大したバイアスを修正するのに苦労する。
論文参考訳（メタデータ） (2026-05-07T18:51:57Z)
QaRL: Rollout-Aligned Quantization-Aware RL for Fast and Stable Training under Training--Inference Mismatch [33.82215097004296]
本稿では,QaRL(Rollout Alignment Quantization-Aware RL)を提案する。数学問題に対するQwen3-30B-A3B MoEでは、QaRLは量子化されたロールアウトトレーニングを+5.5で上回り、安定性を改善し、低ビットスループットの利点を保っている。
論文参考訳（メタデータ） (2026-04-09T06:11:46Z)
Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR [78.88799271719365]
本稿では,オンラインロールアウトプルーニング手法であるarrol(オンラインロールアウトプルーニングによるRLVRの高速化)を紹介する。 Arrolは軽量なクオリティヘッドをオンザフライでトレーニングし、部分的なロールアウトの成功確率を予測する。 Qwen-3とLLaMA-3.2のGRPOとDAPO全体で、アロールは平均精度を+2.30から+2.99に改善し、最大1.7倍のトレーニングスピードアップを達成する。
論文参考訳（メタデータ） (2026-03-25T22:10:36Z)
Efficient and Stable Reinforcement Learning for Diffusion Language Models [59.75789436018925]
拡散型大規模言語モデル(dLLM)の複雑な推論能力を解き放つには強化学習(RL)が不可欠である dLLMの適用は、効率と安定性において、ユニークな課題に直面します。本稿では,dLLMに対するRLの効率性と安定性を同時に向上するフレームワークであるスポース・テンポラル・プルーニング(STP)を提案する。
論文参考訳（メタデータ） (2026-02-09T17:04:23Z)
Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文参考訳（メタデータ） (2025-11-17T19:02:12Z)
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。 DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文参考訳（メタデータ） (2025-10-16T20:05:57Z)
Diagnosing and Mitigating System Bias in Self-Rewarding RL [37.83913102876393]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を拡大するが、継続するデータスケーリングのためにラベル付きサンプルの制限によりボトルネックが残る。モデルは高信頼のロールアウトを過大評価する傾向があり、バイアスがあり不安定な報酬推定につながる。本稿では,多種多様なモデルを集約し,報酬とロールアウトの選択に適応する強化学習(RLER)を提案する。
論文参考訳（メタデータ） (2025-10-10T03:38:17Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。 CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。