論文の概要: DiT-Reward: Generative Representations for Text-to-Image Reward Modeling
- arxiv url: http://arxiv.org/abs/2606.23626v1
- Date: Mon, 22 Jun 2026 17:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:39:27.750654
- Title: DiT-Reward: Generative Representations for Text-to-Image Reward Modeling
- Title(参考訳): DiT-Reward:テキスト・画像・リワードモデリングのための生成表現
- Authors: Yuanming Yang, Guoqing Ma, Bo Wang, Yuan Zhang, Wei Tang, Chenyi Li, Haoyang Huang, Nan Duan,
- Abstract要約: 本稿では,事前学習したテキストから画像への拡散変換器を報酬モデルに変換するDiT-Rewardを紹介する。
HPSv3と同じトレーニングデータで、DiT-Rewardは4つの評価された選好ベンチマークでHPSv3を上回っている。
- 参考スコア(独自算出の注目度): 49.03965119002413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can representations learned for image generation also support the evaluation of generated images? We study text-to-image reward prediction as a downstream task of generative representation learning. To this end, we introduce DiT-Reward, which converts a pretrained text-to-image Diffusion Transformer into a reward model by processing near-clean image latents and aggregating text-conditioned image representations across transformer layers. Under the same training data mixture as HPSv3, DiT-Reward outperforms HPSv3 on all four evaluated preference benchmarks, reaching 85.6% on HPDv2 and 77.6% on HPDv3. When the generative backbone is frozen, a lightweight learned head can still extract meaningful preference predictions from its representations. Probing across depth further reveals that downstream reward performance is strongest in the middle-to-late layers and benefits from combining representations across different stages. We also observe consistent positive scaling with generative backbone capacity. Finally, when used to optimize Stable Diffusion 3.5 Large with Flow-GRPO, DiT-Reward outperforms HPSv3 along the matched training trajectory, with particularly clear gains in realism. Direct latent scoring also achieves a 1.65x inference speedup over HPSv3 with comparable peak memory. These results show that pretrained generative DiTs provide transferable representations for reward modeling and policy optimization.
- Abstract(参考訳): 画像生成のために学習した表現は、生成した画像の評価もサポートできるのか?
生成表現学習の下流課題として,テキストから画像への報酬予測について検討した。
そこで本研究では,事前学習したテキストから画像への拡散変換器を報酬モデルに変換するDiT-Rewardを導入する。
HPSv3と同じトレーニングデータで、DiT-Rewardは4つの評価された選好ベンチマークでHPSv3を上回っ、HPDv2では85.6%、HPDv3では77.6%に達した。
生成したバックボーンが凍結されると、軽量な学習ヘッドはその表現から意味のある好みの予測を抽出することができる。
ディープを横切ることで、下流の報酬パフォーマンスが中間層から後期層で最強であることと、異なるステージにまたがる表現を組み合わせるメリットが明らかになる。
また,生成的バックボーン容量と一貫した正のスケーリングも観察した。
最後に、フロー-GRPOで安定拡散3.5を最適化するために使用する場合、DiT-Rewardは、マッチングされたトレーニング軌道に沿ってHPSv3より優れ、特にリアリズムにおいて顕著な利得がある。
直接潜時スコアリングはHPSv3よりも1.65倍の高速化を実現し、ピークメモリに匹敵する。
これらの結果は、事前学習された生成DiTが報酬モデリングとポリシー最適化のための転送可能な表現を提供することを示している。
関連論文リスト
- Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - PAGER: Progressive Attribute-Guided Extendable Robust Image Generation [38.484332924924914]
本研究は,連続的部分空間学習(SSL)に基づく生成的モデリング手法を提案する。
文献のほとんどの生成モデルとは異なり,本手法では,基盤となるソース分布の解析や画像の合成にはニューラルネットワークを使用しない。
プログレッシブ誘導伸縮性画像生成(R)モデルと呼ばれるこの手法は、数学的透明性、プログレッシブコンテンツ生成、トレーニング時間の短縮、トレーニングサンプルの少ないロバストパフォーマンス、条件付き画像生成への拡張性に利点がある。
論文 参考訳(メタデータ) (2022-06-01T00:35:42Z) - A Closer Look at Self-Supervised Lightweight Vision Transformers [44.44888945683147]
大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法のベンチマークを行った。
バニラ・ライトウェイトなViTでさえ、デリケートなアーキテクチャ設計を持つ以前のSOTAネットワークに匹敵する性能を示している。
論文 参考訳(メタデータ) (2022-05-28T14:14:57Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。