論文の概要: STAR: SpatioTemporal Adaptive Reward Allocation for Text-to-Image RL Post-Training
- arxiv url: http://arxiv.org/abs/2606.17979v2
- Date: Thu, 18 Jun 2026 14:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.711069
- Title: STAR: SpatioTemporal Adaptive Reward Allocation for Text-to-Image RL Post-Training
- Title(参考訳): STAR: テキストから画像へのRL後処理のための時空間適応逆アロケーション
- Authors: Jinjie Shen, Wei Deng, Xian Hu, Daiguo Zhou, Jian Luan,
- Abstract要約: textbfSpatioTemporal Adaptive Reward (STAR) Allocation for RL post-training of text-to-image diffusion and flow model。
STARは、生成モデル内のテキストイメージの注意を使い、ユーザーがプロンプトで本当に関心を持っている中核コンテンツから始める。
ステップやロールアウトによって動的に変化する空間割当マップを構築し、より関連する潜伏領域に同じグループ相対的な利点を割り当てる。
- 参考スコア(独自算出の注目度): 11.804446262558175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing RL post-training methods for text-to-image generation usually convert the final-image reward into a single scalar advantage and apply it with the same strength to the entire generative trajectory. However, text-to-image generation naturally has temporal and spatial structure: different denoising steps are responsible for different generation stages, and the content that truly determines text alignment often appears only in part of the image. This granularity mismatch makes it difficult for policy updates to focus on the generative components that actually affect the reward. To address this issue, we propose \textbf{SpatioTemporal Adaptive Reward (STAR) Allocation} for RL post-training of text-to-image diffusion and flow models. STAR uses text-image attention inside the generative model and starts from the core content that the user truly cares about in the prompt. It constructs spatial allocation maps that dynamically vary across denoising steps and rollouts, and allocates the same group-relative advantage to more relevant latent regions with almost no additional computational overhead. STAR then applies stronger policy updates to these regions through a spatially resolved policy objective. We use Stable Diffusion 3.5 Medium as the base model and evaluate on three tasks: GenEval, OCR text rendering, and PickScore. Experimental results show that STAR improves compositional semantic alignment, text rendering, and preference optimization without changing the external reward source, achieving $\mathbf{0.9759}$, $\mathbf{0.9757}$, and $\mathbf{23.60}$ on GenEval, OCR, and PickScore, respectively.
- Abstract(参考訳): テキスト・ツー・イメージ生成のための既存のRLポストトレーニング法は、通常、最終画像報酬を単一のスカラー・アドバンテージに変換し、生成軌道全体に対して同じ強度で適用する。
しかし、テキスト・ツー・イメージ生成は時間的・空間的な構造を持ち、異なる認知段階が異なる生成段階に責任を持ち、真のテキストアライメントを決定する内容は画像の一部にのみ現れることが多い。
この粒度のミスマッチは、ポリシー更新が報酬に実際に影響を及ぼす生成コンポーネントに焦点を当てるのを難しくする。
この問題に対処するために,テキスト・ツー・イメージ拡散・フローモデルのRL後トレーニングのためのtextbf{SpatioTemporal Adaptive Reward (STAR) Allocation}を提案する。
STARは、生成モデル内のテキストイメージの注意を使い、ユーザーがプロンプトで本当に関心を持っている中核コンテンツから始める。
ステップやロールアウトによって動的に変化する空間割当マップを構築し、計算オーバーヘッドがほとんどないより関連する潜在領域に同じグループ相対的な利点を割り当てる。
そしてSTARは、空間的に解決された政策目標を通じて、これらの領域により強力なポリシー更新を適用します。
我々は,安定拡散3.5媒体をベースモデルとし,GenEval,OCRテキストレンダリング,PickScoreの3つのタスクを評価する。
実験の結果、STARは、外部の報酬源を変更することなく、コンポジションのセマンティックアライメント、テキストレンダリング、好みの最適化を改善し、それぞれ$\mathbf{0.9759}$、$\mathbf{0.9757}$、$\mathbf{23.60}$をGenEval、OCR、PickScoreで達成した。
関連論文リスト
- $β$-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment [53.42377319350806]
$-CLIPは、多言語テキスト条件のコントラスト学習フレームワークである。
$-CALは、この階層に固有のセマンティックオーバーラップに対処する。
$-CLIPは、高密度視覚言語対応のための堅牢で適応的なベースラインを確立する。
論文 参考訳(メタデータ) (2025-12-14T13:03:20Z) - Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences [23.022496443851235]
画像と生成されたテキストが与えられた場合、テキスト・ツー・イメージ・モデルを用いてテキストを画像空間にマッピングし、元の画像と再構成との類似性を計算する。
サイクル一貫性スコアを用いて候補をランク付けし、866K比較ペアの選好データセットを構築する。
データセットであるCycleRewardでトレーニングされた報酬モデルは、詳細なキャプションに関する最先端のアライメント指標よりも優れています。
論文 参考訳(メタデータ) (2025-06-02T17:42:58Z) - Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。
RLの有効性はスパース報酬の挑戦によって制限される。
$textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-03-14T09:45:19Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。