論文の概要: Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling
- arxiv url: http://arxiv.org/abs/2606.12370v1
- Date: Wed, 10 Jun 2026 17:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.598067
- Title: Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling
- Title(参考訳): ブレークングエントロピー境界:リジェクションサンプリングを用いたMPPによるRLトレーニングの高速化
- Authors: Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou,
- Abstract要約: 強化学習(RL)は、現代の大規模言語モデルにおいて重要なコンポーネントとなっているが、ロールアウトステージは、RLトレーニングパイプラインにおける重要なボトルネックであり続けている。
MTP(Multi-Token Prediction)は投機的復号化によってロールアウトを加速する自然な解を提供するが、多くの研究で、MTPの受入率がRLトレーニング中に著しく低下することが観察されている。
本稿では,LLMポストトレーニングにおけるMPPの体系的研究であるBebopを紹介し,大規模なRLパイプラインにMPPを統合するための実践的なレシピを提供する。
- 参考スコア(独自算出の注目度): 87.16803442525755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural solution to accelerate rollouts through speculative decoding, many studies have observed that MTP acceptance rates degrade significantly during RL training, leading to limited speedup performance. To address this bottleneck, we present Bebop, a systematic study of MTP in LLM post-training, and offer practical recipes to integrate MTP into large-scale RL pipelines. First, we reveal that the MTP acceptance rate is fundamentally bounded by the fluctuation of model entropy, which demonstrates a clear negative linear relationship with the rise of entropy in the RL stage. Second, we show that probabilistic rejection sampling largely alleviates the disturbance introduced by entropy in RL compared to greedy draft sampling. We further identify that the conventional MTP training objectives (cross-entropy or KL) are suboptimal in such settings, and therefore we propose a novel end-to-end TV loss that directly optimizes multi-step rejection sampling acceptance rate, yielding ~10% acceptance rate improvements, achieving up to 95% acceptance rates and up to 25% extra inference throughput gains across mathematical reasoning, code generation, and agentic tasks. Third, we test various online MTP training strategies during RL and show that pre-RL MTP training with e2e TV loss and rejection sampling achieves a consistent acceptance rate and speedup throughout the entire RL, eliminating the need for costly online MTP updating. We provide extensive experiments and analysis that validate our findings. Experimental results show our method achieves up to 1.8x end-to-end acceleration in async RL training of Qwen3.5, Qwen3.6, and Qwen3.7 models.
- Abstract(参考訳): 強化学習(RL)は、現代の大規模言語モデルにおいて重要なコンポーネントとなっているが、ロールアウトステージは、RLトレーニングパイプラインにおける重要なボトルネックであり続けている。
MTP(Multi-Token Prediction)は投機的復号化によってロールアウトを高速化する自然な解を提供するが、多くの研究で、MTPの受入率はRLトレーニング中に大幅に低下し、スピードアップ性能が制限される。
このボトルネックに対処するために,LLMポストトレーニングにおけるMPPの体系的研究であるBebopを紹介し,大規模なRLパイプラインにMPPを統合するための実践的なレシピを提供する。
まず, モデルエントロピーの揺らぎにより, MTP の受容速度が基本的に拘束され, RL 段階におけるエントロピーの上昇と負の線形関係が明らかになることを示した。
第2に,確率的拒絶サンプリングは,greedyドラフトサンプリングと比較して,RLのエントロピーによって引き起こされる障害を大幅に軽減することを示した。
さらに,従来のMPPトレーニング目標(クロスエントロピーやKL)が,このような設定で最適であることを示すとともに,マルチステップ拒否サンプリングの受け入れ率を直接最適化し,約10%の受け入れ率向上を実現し,最大95%の受け入れ率と最大25%の推論スループット向上を実現し,数学的推論,コード生成,エージェントタスクを対象とする,新たなエンドツーエンドTV損失を提案する。
第3に,RL における様々なオンライン MTP トレーニング戦略を検証し,e2e TV ロスとリジェクションサンプリングによる事前 RL MTP トレーニングが,RL 全体を通して一貫した受容率とスピードアップを実現し,コストのかかるオンライン MTP 更新の必要性を排除していることを示す。
得られた知見を検証するための広範な実験と分析を行う。
実験結果から,Qwen3.5,Qwen3.6,Qwen3.7モデルの非同期RLトレーニングにおいて,最大1.8倍のエンドツーエンド加速を実現した。
関連論文リスト
- Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models [52.11240605311707]
改良された微調整と強化学習は、大規模言語モデルの訓練後の標準パラダイムとなっている。
EKSFT(Entropy-KL Selective Fine-Tuning)は,参照モデルから高いエントロピーまたは高いKLの発散を示すトークンを選択的にマスクする。
数学的推論ベンチマークに関する実証的な評価は、EKSFTが標準SFTを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-28T03:36:05Z) - Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration [61.46060073417047]
MTP(Multi-Token Prediction)は、事前トレーニングにおいて広く採用されているモジュールである。
RL目標に対するMPPの段差効果は,第1次相関と第2次ペナルティの2つの項に分解できることを示す。
本稿では,ログ確率プロキシを用いて最適係数を無視可能なコストでオンラインで追跡する適応型手法を提案する。
論文 参考訳(メタデータ) (2026-05-27T09:07:06Z) - Self-Distillation for Multi-Token Prediction [27.12687724768597]
マルチトークン予測(MTP)は、複数の将来トークンを並列に予測することで、推論を加速することができる。
MTP-Dは, トレーニングコストを最小限に抑えつつ, 簡便かつ効果的な自己蒸留法である。
また、MPP-Dのループ拡張戦略を導入し、効果的かつ経済的なMPPヘッド拡張を可能にした。
論文 参考訳(メタデータ) (2026-03-25T04:00:29Z) - Efficient and Stable Reinforcement Learning for Diffusion Language Models [59.75789436018925]
拡散型大規模言語モデル(dLLM)の複雑な推論能力を解き放つには強化学習(RL)が不可欠である
dLLMの適用は、効率と安定性において、ユニークな課題に直面します。
本稿では,dLLMに対するRLの効率性と安定性を同時に向上するフレームワークであるスポース・テンポラル・プルーニング(STP)を提案する。
論文 参考訳(メタデータ) (2026-02-09T17:04:23Z) - Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning [8.550698116833123]
推論LDMの訓練後は通常、オフラインのSFTステージとオンラインの強化学習ステージで構成される。
同一のRLトレーニングの後、より強力なSFTチェックポイントのモデルの方が、より弱いモデルよりもはるかに性能が低いことを示す。
本稿では、このミスマッチを補正し、RLのモデルを改善するSFT段法であるPEARを提案する。
論文 参考訳(メタデータ) (2026-02-01T06:53:45Z) - FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction [11.691960175716163]
本稿では,MTPトレーニングを推論パターンに整合させることで,多段階のドラフト品質を向上させるFastMTPを提案する。
我々のアプローチは、自己蒸留データに位置共有重みを付加した単一のMPPヘッドを微調整することで、連続した将来のトークン間の依存関係をキャプチャすることができる。
7つの異なるベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測と比較して平均2.03倍のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2025-09-16T07:36:26Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - On multi-token prediction for efficient LLM inference [0.36681882674260474]
まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。
次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
論文 参考訳(メタデータ) (2025-02-13T15:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。