論文の概要: Accelerating Disaggregated RL for Visual Generative LLMs with Diffusion-Based Parallelism and Trainer-Assisted Generation
- arxiv url: http://arxiv.org/abs/2606.24369v1
- Date: Tue, 23 Jun 2026 09:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.895378
- Title: Accelerating Disaggregated RL for Visual Generative LLMs with Diffusion-Based Parallelism and Trainer-Assisted Generation
- Title(参考訳): 拡散型並列性とトレーナー支援による視覚発生型LLM用解離RLの高速化
- Authors: Sijie Wang, Zhengyu Qing, Zhiqiang Tan, Yiming Yin, Yeqing Zhang, Yaoyuan Wang, Qiang Wang, Xiaowen Chu, Shaohuai Shi,
- Abstract要約: DigenRLは拡散型大規模言語モデル(LLM)のフレームワークである
柔軟なリソース割り当てをサポートし、異種GPUに対応し、効率的なタスクスケジューリングを容易にする。
DigenRLは、最先端拡散RLシステムよりも1.56-2.10倍のスループット向上を実現している。
- 参考スコア(独自算出の注目度): 26.08473785297375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become a dominant post-training paradigm, driving the emergence of high-performance RL systems such as veRL for autoregressive large language models (LLMs). In parallel, diffusion-oriented RL algorithms, e.g., DanceGRPO and FlowGRPO, have rapidly expanded the scope of RL from language reasoning to diffusion-based visual and flow-based generation. However, efficient RL systems for diffusion generative LLMs remain underexplored. Existing implementations, e.g., veRL-Omni, still rely on colocated execution, which simplifies synchronization but couples rollout and training resources, limits heterogeneous deployment, and constrains independent scaling. To this end, we introduce DigenRL, a disaggregated RL framework for diffusion-based generative LLMs that supports flexible resource allocation, accommodates heterogeneous GPUs, and facilitates efficient task scheduling. To maximally reduce the execution bubbles in the disaggregated architecture, we propose: 1) a generation-axis pipeline (GAP) and time-step parallelism (TSP) in the diffusion architecture to enable finer-grained pipelining between rollout and training; 2) an elastic trainer-assisted generation (TAG) approach to enable the trainer GPU resources to dynamically assist in executing rollout generations; and 3) a tightly one-step constrained asynchronous strategy to further utilize the tail bubble in the pipeline. Extensive experiments are conducted on three hardware testbeds with 16-32 GPUs using HunyuanVideo-13B, Wan2.1-14B, FLUX.1-12B, and QwenImage-20B generative models. Experimental results show that DigenRL achieves 1.56-2.10x throughput improvements over state-of-the-art diffusion RL systems, veRL-Omni and GenRL.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 自己回帰型大規模言語モデル(LLM)のためのveRLのような高性能なRLシステムの出現を後押しする, ポストトレーニングのパラダイムとして主流となっている。
並列的に,拡散指向型RLアルゴリズムであるDanceGRPOとFlowGRPOは,言語推論から拡散型ビジュアルおよびフローベース生成まで,RLの範囲を急速に拡大している。
しかし, 拡散生成性LLMの効率的なRLシステムはいまだ未検討である。
既存の実装であるveRL-Omniは、同期を簡略化するが、ロールアウトとトレーニングリソース、異種デプロイメントの制限、独立スケーリングの制約など、コロケーション実行に依存している。
この目的のために、拡散型LLMのための分散RLフレームワークであるDigenRLを紹介し、柔軟性のあるリソース割り当てをサポートし、異種GPUに対応し、効率的なタスクスケジューリングを容易にする。
分散アーキテクチャにおける実行バブルを最大化するために,本稿では,次のように提案する。
1 拡散アーキテクチャにおける世代軸パイプライン(GAP)及び時間ステップ並列化(TSP)により、ロールアウトとトレーニングの間によりきめ細かなパイプライニングを可能にする。
2) エラスティックトレーナー支援ジェネレーション(TAG)アプローチにより、トレーナーGPUリソースがロールアウトジェネレーションの実行を動的に支援できる。
3) パイプラインのテールバブルをさらに活用するための,厳密な1段階の制約付き非同期戦略。
HunyuanVideo-13B、Wan2.1-14B、FLUX.1-12B、QwenImage-20B生成モデルを使用して、16-32GPUを搭載した3つのハードウェアテストベッドで大規模な実験が行われた。
実験結果から,DigenRLは最先端拡散RLシステム,veRL-Omni,GenRLよりも1.56-2.10倍のスループット向上を実現していることがわかった。
関連論文リスト
- SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。
SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。
LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T16:48:31Z) - AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models [21.204182133307047]
本稿では,完全に非同期で疎結合なRLフレームワークであるAceRLを提案する。
AcceRLは、プラグ&プレイ可能なトレーニング可能なワールドモデルを分散非同期RLパイプラインに統合する最初の方法である。
LIBEROciteliu2023liberoベンチマークの実験では、AceRLがSOTA(State-of-the-art)のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2026-03-19T03:50:45Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。
ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。
最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文 参考訳(メタデータ) (2025-11-02T04:17:30Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation [48.387059398752626]
強化学習(Reinforcement Learning, RL)は、人工知能、エージェントインテリジェンス、エンボディドインテリジェンスを進化させる大きな可能性を実証している。
本稿では,RL学習を効率化するための主要な障害がシステムの柔軟性にあるというキーとなる観察に基づいて,高性能なRLトレーニングシステムであるRLinfを提案する。
RLinfは最先端のシステムより一貫して優れており、エンドツーエンドのトレーニングスループットで1.1x-2.13xのスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-19T13:24:17Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。