論文の概要: HPSv3++: Scaling Reward Models Across the Full Spectrum of Diffusion Model Capabilities
- arxiv url: http://arxiv.org/abs/2606.14657v1
- Date: Fri, 12 Jun 2026 17:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:43.010308
- Title: HPSv3++: Scaling Reward Models Across the Full Spectrum of Diffusion Model Capabilities
- Title(参考訳): HPSv3++: 拡散モデル機能の全スペクトルにわたって、リワードモデルをスケーリングする
- Authors: Yijun Liu, Jie Huang, Zeyue Xue, Yuming Li, Ruizhe He, Haoran Li, Shijia Ge, Siming Fu,
- Abstract要約: 我々は,T2Iモデル機能とRLイテレーションの異なるHPSv3モデルを改善する報奨モデルフレームワークであるHPSv3++を提案する。
HPSv3++は、HPDv3で9.8%、GenAI-Benchで5.5%を上回り、提案したHPDv3++で79.1%/88.1%を達成している。
- 参考スコア(独自算出の注目度): 21.055150092997902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models guide text-to-image (T2I) systems toward outputs aligned with human preferences. However, typical reward models such as HPSv3 are trained on pre-annotated data from earlier T2I models, without accounting for quality discriminative shifts arising from evolving model capabilities and reinforcement learning (RL) iterations, limiting their broader applicability. In this work, we propose HPSv3++, a reward model framework that elevates the HPSv3 model for varying T2I model capabilities and their RL iteration changes across the full capability-iteration spectrum. Specifically, we first introduce HPDv3++, a 212K dual-dimension preference dataset annotated for text fidelity and aesthetic quality using a recent high-capability (Qwen-Image) model with human supervision. We then propose a two-stage training framework. Stage 1 employs data-aware orthogonal gradient projection to incorporate diverse aesthetic perception from HPDv3++ while preserving the original effective human preference knowledge in HPSv3. Stage 2 further leverages unlabeled data from T2I models spanning different capability levels and RL iterations, and introduces a joint capability-iterations conditioned signal for the reward model together with a standard deviation-driven unsupervised guidance mechanism, strengthening reward model across the capability-iteration spectrum. HPSv3++ achieves state-of-the-art preference prediction, outperforming HPSv3 9.8% on HPDv3, 5.5% on GenAI-Bench, while achieving 79.1%/88.1% on our proposed HPDv3++. When used for T2I RL training, it consistently improves GenEval scores across diverse T2I models, demonstrating its wide-range capabilities. The code is available at https://github.com/PlantPotatoOnMoon/HPSv3-PlusPlus.
- Abstract(参考訳): Reward Modelは、テキスト・トゥ・イメージ(T2I)システムを人間の好みに沿った出力へと導く。
しかし、HPSv3のような典型的な報酬モデルは、進化するモデル能力と強化学習(RL)の反復によって生じる品質上の差別的なシフトを考慮せずに、初期のT2Iモデルの注釈付きデータに基づいて訓練される。
そこで本研究では,HPSv3++を提案する。HPSv3モデルは,T2Iモデル能力の変動と,そのRL反復変化を,全機能イテレーションスペクトルにわたって高めることができる。
具体的には,HPDv3++を紹介した。HPDv3++はテキストの忠実度と美的品質にアノテートされた212Kの二重次元嗜好データセットで,人間の監督を伴う最近の高機能(Qwen-Image)モデルを用いている。
次に、2段階のトレーニングフレームワークを提案する。
ステージ1では、HPDv3++からの多様な審美的知覚を取り入れつつ、HPSv3の本来の効果的な人間の嗜好知識を保存するために、データ対応の直交勾配プロジェクションを採用している。
ステージ2はさらに、異なる能力レベルとRLイテレーションにまたがるT2Iモデルからのラベルなしデータを活用し、標準偏差駆動による教師なし誘導機構とともに、報酬モデルのための共同能力条件付き信号を導入し、能力評価スペクトルをまたいだ報酬モデルを強化する。
HPSv3++は、HPDv3で9.8%、GenAI-Benchで5.5%を上回り、提案したHPDv3++で79.1%/88.1%を達成している。
T2I RLトレーニングに使用すると、さまざまなT2IモデルのGenEvalスコアを一貫して改善し、その幅広い能力を実証する。
コードはhttps://github.com/PlantPotatoOnMoon/HPSv3-PlusPlusで公開されている。
関連論文リスト
- HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents [71.09493646932046]
本稿では,実世界のエンボディエージェントに特化して設計された基礎モデルのファウンデーションモデルであるHY-Embodied-0.5を紹介する。
HY-Embodied-0.5スイートは、エッジ配置用に設計された2Bアクティベートパラメータを持つ効率的なモデルと、複雑な推論をターゲットとした32Bアクティベートパラメータを持つ強力なモデルである。
私たちのMoT-2Bモデルは16ベンチマークで同等の大きさの最先端モデルより優れていますが、32BはGemini 3.0 Proのようなフロンティアモデルに匹敵するパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2026-04-08T17:59:48Z) - HPSv3: Towards Wide-Spectrum Human Preference Score [40.928086618018774]
我々は、1.08Mのテキストイメージペアと1.17Mの注釈付きペアワイズ比較を統合した、初めてのワイドスペクトルヒトの嗜好データセットをリリースする。
微粒なランク付けのための不確実性認識ランキング損失を用いて訓練されたVLMに基づく選好モデルを提案する。
さらに,余分なデータなしで品質を向上させる反復画像改善法であるChain-of-Human-Preference (CoHP)を提案する。
論文 参考訳(メタデータ) (2025-08-05T17:17:13Z) - UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - Revisiting Birds Eye View Perception Models with Frozen Foundation Models: DINOv2 and Metric3Dv2 [6.42131197643513]
我々は,Metric3Dv2の深度情報を,Simple-BEVアーキテクチャに組み込まれたPseudoLiDARポイントクラウドとして,革新的な応用を紹介した。
この統合により、カメラのみのモデルに比べて+3 IoUが改善される。
論文 参考訳(メタデータ) (2025-01-14T13:51:14Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - David and Goliath: Small One-step Model Beats Large Diffusion with Score Post-training [8.352666876052616]
Diff-Instruct* (DI*) は1ステップのテキスト・ツー・イメージ生成モデルのためのデータ効率のよいポストトレーニング手法である。
提案手法は,人的フィードバックからオンライン強化学習としてアライメントを行う。
我々の2.6B emphDI*-SDXL-1stepモデルは、50ステップのFLUX-devモデルより優れている。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [84.03286690283747]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。