論文の概要: AdaGRPO: A Capability-Aware Adaptive Enhancement for Flow-based GRPO
- arxiv url: http://arxiv.org/abs/2606.06828v1
- Date: Fri, 05 Jun 2026 02:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.51491
- Title: AdaGRPO: A Capability-Aware Adaptive Enhancement for Flow-based GRPO
- Title(参考訳): AdaGRPO: フローベースのGRPOのアダプティブな拡張機能
- Authors: Jiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tianyi Wei, Xiaohang Zhan, Jiaqi Wang, Tong Wu, Xingang Pan, Dahua Lin,
- Abstract要約: グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルと人間の嗜好の整合において顕著な成功を収めた。
我々は,現在のフローベースGRPOの学習ループが,学習者の現在の能力から根本的に切り離されていることを確認した。
本稿では,フローモデルに適した新しい能力認識型RLアルゴリズムであるAdaptive GRPO(AdaGRPO)を提案する。
- 参考スコア(独自算出の注目度): 78.36537400975298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has demonstrated remarkable success in aligning text-to-image (T2I) flow models with human preferences. However, we have identified that the learning loop of current flow-based GRPO is fundamentally decoupled from the learner's current capability, suffering from critical blind spots at both prompt selection and advantage estimation: (i) Existing methods sample prompts randomly, overlooking the substantial impact of data selection on reinforcement learning (RL) efficacy--a factor proven crucial in GRPO for large language models; (ii) They evaluate sample quality solely relying on intra-group statistics, lacking a global perspective to accurately measure true policy improvement. To address these issues, we propose Adaptive GRPO (AdaGRPO), a novel capability-aware RL algorithm tailored for flow models. Specifically, AdaGRPO consists of two principal components: (i) Online Curriculum Filtering Strategy: Dynamically tracks the model's proficiency and adaptively selects prompts that best match its current learning boundary; (ii) Cross-Level Advantage Fusion: Synergistically integrates fine-grained intra-group advantages with macro-level global advantages, providing a comprehensive and unbiased policy evaluation. As a lightweight, plug-and-play module, AdaGRPO can be seamlessly integrated with existing frameworks such as Flow-GRPO, DanceGRPO, and Flow-CPS. Extensive experiments demonstrate that AdaGRPO consistently drives performance gains while significantly stabilizes GRPO training for flow models.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルと人間の嗜好の整合において顕著な成功を収めた。
しかし、我々は、現在のフローベースGRPOの学習ループが学習者の現在の能力から根本的に切り離されていることを確認した。
一 既存手法は、大規模言語モデルにおいてGRPOにおいて重要な要因である強化学習(RL)の有効性に対するデータ選択の実質的な影響を見越して、ランダムに促す。
二 グループ内統計にのみ依存し、真の政策改善を正確に測定するための世界的視点を欠いたサンプル品質を評価する。
これらの問題に対処するために,フローモデルに適した新しい能力認識型RLアルゴリズムであるAdaptive GRPO(AdaGRPO)を提案する。
具体的には、AdaGRPOは2つの主成分から構成される。
(i)オンラインカリキュラムフィルタリング戦略:モデルの習熟度を動的に追跡し、現在の学習境界に最も合うプロンプトを適応的に選択する。
(ii)クロスレベル・アドバンテージ・フュージョン: グループ内の微細な利点とマクロレベルのグローバルなアドバンテージを相乗的に統合し、包括的で偏りのない政策評価を提供する。
軽量でプラグアンドプレイのモジュールとして、AdaGRPOはFlow-GRPO、DanceGRPO、Flow-CPSといった既存のフレームワークとシームレスに統合できる。
大規模な実験により、AdaGRPOは一貫して性能向上を加速する一方で、流れモデルのGRPOトレーニングを著しく安定化することが示された。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。