論文の概要: DiffusionBench: On Holistic Evaluation of Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2606.24888v1
- Date: Tue, 23 Jun 2026 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.137893
- Title: DiffusionBench: On Holistic Evaluation of Diffusion Transformers
- Title(参考訳): DiffusionBench:拡散変圧器のホロスティック評価について
- Authors: Xingjian Leng, Jaskirat Singh, Zhanhao Liang, Ethan Smith, Martin Bell, Aninda Saha, Yuhui Yuan, Liang Zheng,
- Abstract要約: 統合されたDiTトレーニングおよび評価フレームワークであるNanoGenを紹介する。
NanoGenはImageNet上の最先端のDiTベースラインにマッチし、12行の構成変更とともに、競合するテキスト・ツー・イメージモデルもトレーニングする。
また,NanoGenを用いた21の潜伏拡散モデルのトレーニングを行った結果,ImageNetとT2I生成の相関性は認められなかった。
このことは、クラス条件のImageNet FIDを改善する手法は、T2Iに対して対応する改善を示さず、両方のタスクでDiTを評価する必要性を明確に示していることを示唆している。
- 参考スコア(独自算出の注目度): 27.242738745873567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion transformer (DiT) research on image generation has converged to a single evaluation setup: class-conditional generation on ImageNet. While methods improve the FID and related metrics, it is increasingly unclear whether they reflect real progress in generative modeling. The natural alternative, i.e., text-to-image (T2I) generation, is perceived as too costly or inconvenient to train and evaluate and is often skipped. We argue that this perception no longer holds. We introduce NanoGen, a unified DiT training and evaluation framework. NanoGen matches state-of-the-art DiT baselines on ImageNet and, with 12 lines of configuration change, also trains competitive text-to-image models. It currently supports RAE, VAE, pixel-space, and MeanFlow diffusion methods under both ImageNet and T2I setups. Under NanoGen, training T2I requires comparable compute to ImageNet. After training 21 latent diffusion models with NanoGen, we observe that method ranking shows no strong correlation between ImageNet and T2I generation: Pearson correlation is between -0.377 and -0.580 across three metrics. This suggests that a method which improves class-conditional ImageNet FID may show no corresponding improvement on T2I, clearly indicating the necessity of evaluating DiTs on both tasks. To this end, we summarize ImageNet and text-to-image results, which yields DiffusionBench, a holistic benchmark for DiT research. We recommend reporting DiffusionBench in place of ImageNet alone: methods that improve DiffusionBench are more likely to reflect broader progress.
- Abstract(参考訳): 拡散変換器(DiT)による画像生成の研究は、画像Net上のクラス条件生成という単一の評価設定に集約されている。
手法はFIDと関連する指標を改良するが、生成モデリングの本当の進歩を反映しているかどうかは不明である。
テキスト・トゥ・イメージ(T2I)生成という自然な代替手段は、訓練や評価にはコストがかかりすぎるか不便であると見なされ、しばしばスキップされる。
この認識はもはや成り立たないと我々は主張する。
統合されたDiTトレーニングおよび評価フレームワークであるNanoGenを紹介する。
NanoGenはImageNet上の最先端のDiTベースラインにマッチし、12行の構成変更とともに、競合するテキスト・ツー・イメージモデルもトレーニングする。
現在、RAE、VAE、ピクセル空間、MeanFlow拡散メソッドをImageNetとT2Iのセットアップでサポートしている。
NanoGenの下では、トレーニングT2IはImageNetに匹敵する計算を必要とする。
NanoGenで21の潜伏拡散モデルを訓練した後、ImageNetとT2I生成の間には強い相関関係がないことが判明した: ピアソン相関は3つの指標で-0.377と-0.580である。
このことは、クラス条件のImageNet FIDを改善する手法は、T2Iに対して対応する改善を示さず、両方のタスクでDiTを評価する必要性を明確に示していることを示唆している。
この目的のために、ImageNet と text-to-image の結果を要約し、DiT 研究の総合的なベンチマークである DiffusionBench を得る。
DiffusionBenchを改善するメソッドは、より広範な進歩を反映する可能性が高い。
関連論文リスト
- Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:29:18Z) - NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation [70.96827354717459]
拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。
本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
論文 参考訳(メタデータ) (2025-05-18T05:09:47Z) - ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment [51.85242063075333]
フローマッチングフレームワークでトレーニングされたRectified Flow (RF)モデルは、Text-to-Image (T2I)条件生成における最先端のパフォーマンスを達成した。
しかし、複数のベンチマークでは、合成画像はプロンプトとの整合性に乏しいことが示されている。
RFMI(Mutual Information (MI) 推定器) を導入し,MI推定に事前学習モデル自体を用いる。
論文 参考訳(メタデータ) (2025-03-18T15:41:45Z) - Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection [21.677178476653385]
そこで本研究では,テキストから画像への拡散変換をインコンテキスト機能付きで行うことで,Nのベスト・オブ・Nサンプリングに代わる手法を提案する。
我々は,Reflect-DiTがベースモデルとしてSANA-1.0-1.6Bを用いてGenEvalベンチマーク(+0.19)の性能を向上させることを示す。
GenEvalでは新しい最先端スコア0.81を達成し、1プロンプト当たり20サンプルしか生成せず、以前の最高スコア0.80を上回った。
論文 参考訳(メタデータ) (2025-03-15T21:58:12Z) - Two Simple Principles for Diffusion-Based Test-Time Adaptation [13.634043135217254]
拡散に基づくテスト時間適応(TTA)は、未知のテスト領域の画像をトレーニング領域にマッピングするために拡散モデルを活用する、大きな進歩を示している。
本稿では拡散法の設計手法の2つの簡単な原理を解明する。
単純だが効果的な拡散誘導型試験時間適応法(PDDA)を提案する。
論文 参考訳(メタデータ) (2023-12-08T02:31:36Z) - CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for
Image Manipulation [57.836686457542385]
拡散モデル(DM)は画像合成タスクのブレークスルーを実現するが、一貫したイメージ・ツー・イメージ(I2I)翻訳のための直感的なインタフェースは欠如している。
本稿では,画像操作を正規化するためのDMにサイクル一貫性を組み込んだ,新しくてシンプルな手法であるCyclenetを紹介する。
論文 参考訳(メタデータ) (2023-10-19T21:32:21Z) - Automated Cleanup of the ImageNet Dataset by Model Consensus,
Explainability and Confident Learning [0.0]
ImageNetは、ILSVRC12Netでトレーニングされた様々な畳み込みニューラルネットワーク(CNN)のバックボーンである。
本稿では,モデルのコンセンサス,説明可能性,自信のある学習に基づく自動アプリケーションについて述べる。
ImageNet-CleanはSqueezeNetおよびEfficientNet-B0モデルのモデルパフォーマンスを2-2.4%向上させる。
論文 参考訳(メタデータ) (2021-03-30T13:16:35Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z) - FU-net: Multi-class Image Segmentation Using Feedback Weighted U-net [5.193724835939252]
マルチクラス画像分割のための汎用ディープ畳み込みニューラルネットワーク(DCNN)を提案する。
U-netとして知られる、よく確立された教師付きエンドツーエンドDCNNモデルに基づいている。
論文 参考訳(メタデータ) (2020-04-28T13:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。