Fugu-MT 論文翻訳(概要): DiT-Reward: Generative Representations for Text-to-Image Reward Modeling

論文の概要: DiT-Reward: Generative Representations for Text-to-Image Reward Modeling

arxiv url: http://arxiv.org/abs/2606.23626v1
Date: Mon, 22 Jun 2026 17:19:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 17:39:27.750654
Title: DiT-Reward: Generative Representations for Text-to-Image Reward Modeling
Title（参考訳）: DiT-Reward:テキスト・画像・リワードモデリングのための生成表現
Authors: Yuanming Yang, Guoqing Ma, Bo Wang, Yuan Zhang, Wei Tang, Chenyi Li, Haoyang Huang, Nan Duan,
Abstract要約: 本稿では,事前学習したテキストから画像への拡散変換器を報酬モデルに変換するDiT-Rewardを紹介する。 HPSv3と同じトレーニングデータで、DiT-Rewardは4つの評価された選好ベンチマークでHPSv3を上回っている。
参考スコア（独自算出の注目度）: 49.03965119002413
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Can representations learned for image generation also support the evaluation of generated images? We study text-to-image reward prediction as a downstream task of generative representation learning. To this end, we introduce DiT-Reward, which converts a pretrained text-to-image Diffusion Transformer into a reward model by processing near-clean image latents and aggregating text-conditioned image representations across transformer layers. Under the same training data mixture as HPSv3, DiT-Reward outperforms HPSv3 on all four evaluated preference benchmarks, reaching 85.6% on HPDv2 and 77.6% on HPDv3. When the generative backbone is frozen, a lightweight learned head can still extract meaningful preference predictions from its representations. Probing across depth further reveals that downstream reward performance is strongest in the middle-to-late layers and benefits from combining representations across different stages. We also observe consistent positive scaling with generative backbone capacity. Finally, when used to optimize Stable Diffusion 3.5 Large with Flow-GRPO, DiT-Reward outperforms HPSv3 along the matched training trajectory, with particularly clear gains in realism. Direct latent scoring also achieves a 1.65x inference speedup over HPSv3 with comparable peak memory. These results show that pretrained generative DiTs provide transferable representations for reward modeling and policy optimization.
Abstract（参考訳）: 画像生成のために学習した表現は、生成した画像の評価もサポートできるのか? 生成表現学習の下流課題として,テキストから画像への報酬予測について検討した。そこで本研究では,事前学習したテキストから画像への拡散変換器を報酬モデルに変換するDiT-Rewardを導入する。 HPSv3と同じトレーニングデータで、DiT-Rewardは4つの評価された選好ベンチマークでHPSv3を上回っ、HPDv2では85.6%、HPDv3では77.6%に達した。生成したバックボーンが凍結されると、軽量な学習ヘッドはその表現から意味のある好みの予測を抽出することができる。ディープを横切ることで、下流の報酬パフォーマンスが中間層から後期層で最強であることと、異なるステージにまたがる表現を組み合わせるメリットが明らかになる。また,生成的バックボーン容量と一貫した正のスケーリングも観察した。最後に、フロー-GRPOで安定拡散3.5を最適化するために使用する場合、DiT-Rewardは、マッチングされたトレーニング軌道に沿ってHPSv3より優れ、特にリアリズムにおいて顕著な利得がある。直接潜時スコアリングはHPSv3よりも1.65倍の高速化を実現し、ピークメモリに匹敵する。これらの結果は、事前学習された生成DiTが報酬モデリングとポリシー最適化のための転送可能な表現を提供することを示している。

論文の概要: DiT-Reward: Generative Representations for Text-to-Image Reward Modeling

関連論文リスト