論文の概要: Balancing Performance and Diversity in GRPO Autoregressive Text-to-Image Post-Training
- arxiv url: http://arxiv.org/abs/2606.21498v1
- Date: Fri, 19 Jun 2026 14:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:06:16.462568
- Title: Balancing Performance and Diversity in GRPO Autoregressive Text-to-Image Post-Training
- Title(参考訳): GRPOオートレグレッシブテキスト・ツー・イメージ・ポスト・トライニングにおけるバランシング性能と多様性
- Authors: Yuanhao Chiang, Hongbo Duan, Chunru Yang, Jiahua Pei, Yi Liu, Xueqian Wang,
- Abstract要約: 近年,T2I(Autoregressive Text-to-image)生成が急速に進歩している。
我々は、この見過ごされた因子を、前向きKL、逆KL、JSの発散を含む統合されたf分割フレームワーク内で研究する。
系統的理論的解析により,異なる発散がトークンレベルの更新を異なる方法で再形成することが明らかとなった。
- 参考スコア(独自算出の注目度): 8.16921896191724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive text-to-image (T2I) generation has recently advanced rapidly, yet aligning generated images with human preferences remains challenging. GRPO-style online reinforcement learning provides an effective framework; however, existing methods typically treat reference-policy divergence as fixed, despite its direct impact on policy optimization. We study this overlooked factor within a unified f-divergence framework, encompassing forward KL, reverse KL, and JS divergence, for GRPO-style autoregressive T2I alignment. Our systematic theoretical analysis reveals that different divergences reshape token-level updates in distinct ways. In particular, under the sampled-token shaping form used, JS regularization achieves a favorable trade-off by mitigating uniform bias relative to the reference policy while still discouraging large deviations. Extensive experiments on LlamaGen and Janus-7B show that JS divergence achieves the strongest or highly competitive optimization performance on most evaluation metrics while maintaining favorable generation diversity. The code is available at https://github.com/tuoyou-hao/BPD-GRPO.
- Abstract(参考訳): 近年,T2I(Autoregressive Text-to-image)生成が急速に進歩している。
GRPOスタイルのオンライン強化学習は効果的な枠組みを提供するが、既存の手法では政策最適化に直接的な影響があるにもかかわらず、基準ポリティクスのばらつきを固定として扱うのが一般的である。
我々は、GRPO方式の自己回帰的T2Iアライメントに対して、フォワードKL、リバースKL、JSの分散を含む統合されたf分割フレームワークにおいて、この見落としている因子について検討した。
系統的理論的解析により,異なる発散がトークンレベルの更新を異なる方法で再形成することが明らかとなった。
特に, JS正則化では, 基準方針に対する一様偏差を緩和しつつ, 大規模な偏差を回避し, 良好なトレードオフを達成している。
LlamaGen と Janus-7B の大規模な実験により、JS のばらつきは、ほとんどの評価指標において最も強い、あるいは高い競争力を持つ最適化性能を達成し、良好な生成の多様性を維持していることが示された。
コードはhttps://github.com/tuoyou-hao/BPD-GRPOで公開されている。
関連論文リスト
- UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation [51.41441081823758]
インターリーブドジェネレーションが可能な統一モデルが有望なパラダイムとして登場している。
インターリーブ・ジェネレーションに適した統合強化学習フレームワークを提案する。
実験により,この統合学習レシピは推論による画像生成品質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2026-03-24T17:59:17Z) - DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay [57.80564154223355]
既存のエクスペリエンスリプレイメソッドは、直接ポリシー更新のための正確なサンプルを再利用することで、この問題に対処する。
歴史的データは単に正確性を強化するのではなく、持続的な多様性を優先すべきである、と我々は主張する。
本稿では,シンプルで効果的な正規化フレームワークであるLEPJRを提案する。
論文 参考訳(メタデータ) (2026-03-17T06:20:56Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。