論文の概要: SeFi-Image: A Text-to-Image Foundation Model with Semantic-First Diffusion
- arxiv url: http://arxiv.org/abs/2606.22568v2
- Date: Tue, 23 Jun 2026 06:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.020149
- Title: SeFi-Image: A Text-to-Image Foundation Model with Semantic-First Diffusion
- Title(参考訳): SeFi-Image:Semantic-First Diffusionを用いたテキストから画像への基礎モデル
- Authors: SeFi-Team,
- Abstract要約: SeFi-Imageはセマンティックファースト拡散に基づいて構築されたテキスト・ツー・イメージの基礎モデルである。
我々は,SeFi-Imageを3つのモデルスケール,1B,2B,5Bパラメータでインスタンス化する。
SeFi-ImageはGenEval, DPG, LongTextBench, OneIG, DMDG-2Kなど,幅広いベンチマークで高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training image generation foundation models consumes substantial resources. Previous methods have attempted to leverage semantic guidance to accelerate the training process, yet their experiments were only conducted on simple datasets such as ImageNet, at low resolutions, and with small-scale models. In this paper, we propose SeFi-Image, a text-to-image foundation model built upon semantic-first diffusion, a novel latent diffusion modeling paradigm. We instantiate SeFi-Image at three model scales, 1B, 2B, and 5B parameters, enabling systematic study of scaling behavior and flexible deployment under varying compute budgets. Notably, our largest 5B model was trained with merely 125K A800 GPU hours, corresponding to roughly 10-20% of the training compute used by Z-Image. However, it achieves results comparable to or even superior to Qwen-Image and Z-Image. Despite this modest training compute, SeFi-Image achieves strong performance on a wide range of benchmarks, including GenEval, DPG, LongTextBench, OneIG, and CVTG-2K. Moreover, we provide DMD2-distilled few-step turbo variants for each model scale to accommodate diverse hardware constraints and latency requirements. We publicly release our code, weights and hope this work offers the community useful insights into semantic-guided diffusion modeling for T2I generation, while also providing practical and readily deployable model options.
- Abstract(参考訳): トレーニング画像生成基盤モデルは、かなりのリソースを消費する。
これまでの方法では、セマンティックガイダンスを活用してトレーニングプロセスを加速しようとしたが、彼らの実験は、ImageNetのような単純なデータセットでのみ、低解像度で、そして小規模のモデルで実施された。
本稿では,セマンティックファースト拡散に基づくテキスト・ツー・イメージ基盤モデルであるSeFi-Imageを提案する。
本研究では,SeFi-Imageを3つのモデルスケール,1B,2B,5Bパラメータでインスタンス化する。
特に、私たちの最大の5Bモデルは、Z-Imageが使用しているトレーニング計算の約10~20%に相当する、わずか125K A800 GPU時間でトレーニングされました。
しかし、Qwen-ImageやZ-Imageに匹敵する結果が得られる。
この控えめなトレーニング計算にもかかわらず、SeFi-ImageはGenEval、DPG、LongTextBench、OneIG、CVTG-2Kなど、幅広いベンチマークで高いパフォーマンスを実現している。
さらに,様々なハードウェア制約やレイテンシ要件を満たすため,各モデルスケールに対してMDD2を蒸留した数段ターボ変種を提供する。
我々は、私たちのコード、重み、そしてこの作業がコミュニティにT2I生成のための意味誘導拡散モデリングに関する有用な洞察を提供すると同時に、実用的で容易にデプロイ可能なモデルオプションを提供することを期待しています。
関連論文リスト
- i1: A Simple and Fully Open Recipe for Strong Text-to-Image Models [12.294477390261422]
本研究では,テキストから画像への拡散学習と推論において,モデリングとデータ設計の選択を体系的に検討する。
公開データセットのみを用いてテキストから画像への拡散モデルをトレーニングする。
i1チェックポイント、トレーニングと推論コード、データ処理パイプラインを提供します。
論文 参考訳(メタデータ) (2026-06-09T17:58:10Z) - Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer [38.99742258165009]
Z-Imageは、"スケール・アット・オール・コスト"パラダイムに挑戦する効率的な基礎生成モデルである。
我々のモデルは、様々な分野において主要な競合相手に匹敵する、またはそれを上回るパフォーマンスを達成する。
当社のコード、ウェイト、オンラインデモを公開し、予算に優しい、最先端のジェネレーティブモデルの開発を奨励しています。
論文 参考訳(メタデータ) (2025-11-27T18:52:07Z) - DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。
我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。
DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文 参考訳(メタデータ) (2025-02-24T13:51:06Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [49.80911683739506]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。