論文の概要: i1: A Simple and Fully Open Recipe for Strong Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2606.11289v1
- Date: Tue, 09 Jun 2026 17:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.113896
- Title: i1: A Simple and Fully Open Recipe for Strong Text-to-Image Models
- Title(参考訳): i1: 強力なテキスト・画像モデルのためのシンプルで完全なオープンレシピ
- Authors: Boya Zeng, Tianze Luo, Shu Pu, Jucheng Shen, Taiming Lu, Gabriel Sarch, Zhuang Liu,
- Abstract要約: 本研究では,テキストから画像への拡散学習と推論において,モデリングとデータ設計の選択を体系的に検討する。
公開データセットのみを用いてテキストから画像への拡散モデルをトレーニングする。
i1チェックポイント、トレーニングと推論コード、データ処理パイプラインを提供します。
- 参考スコア(独自算出の注目度): 12.294477390261422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have consistently driven progress in text-to-image generation. However, it is challenging to attribute recent progress to specific modeling and data choices: state-of-the-art open-weight models provide limited ablations, and do not disclose their training data and full training details. The research community needs fully open (weights, data, and code) models as a foundation for further research; yet existing fully open models still fall significantly short of leading models in performance. In this project, we conduct a systematic investigation of the modeling and data design choices in text-to-image diffusion training and inference with 300+ controlled experiments totaling 700K+ TPU v6e hours. Our experiments highlight several empirical findings (e.g., equal weighting is a strong default for mixing curated datasets) and simple design decisions (e.g., larger text encoder adapters improve performance with minimal added parameters) for training strong models. Guided by these insights, we train i1, a 3B-parameter text-to-image diffusion model using only publicly available datasets. i1 is competitive with leading models on five representative benchmarks (GenEval, DPG, PRISM, CVTG-2K, and LongText), and outperforms the best existing fully open model by 29.5 absolute percentage points on average. We provide the i1 checkpoints, training and inference code, and the data processing pipeline. Together, our findings and the i1 recipe establish a practical foundation for future open research in text-to-image diffusion models. Our code is available at https://github.com/zlab-princeton/i1.
- Abstract(参考訳): 拡散モデルは、テキスト・画像生成の進歩を一貫して推進してきた。
しかし、最近の進歩を特定のモデリングとデータ選択に当てはめるのは難しい。最先端のオープンウェイトモデルは限定的な改善を提供し、トレーニングデータと完全なトレーニング詳細を開示しない。
研究コミュニティは、さらなる研究の基盤として、完全にオープンな(重み、データ、コード)モデルを必要としています。
本稿では,700K+TPU v6e時間を含む300以上の制御実験によるテキスト・画像拡散訓練と推論におけるモデリングとデータ設計の選択を体系的に検討する。
実験では、厳密なモデルをトレーニングするために、いくつかの経験的発見(例えば、等重み付けは、キュレートされたデータセットを混合するための強いデフォルト)と単純な設計決定(例えば、より大きいテキストエンコーダアダプタは、最小限のパラメータでパフォーマンスを改善する)を強調した。
これらの知見に導かれて、公開データセットのみを使用して、3Bパラメータのテキスト-画像拡散モデルであるi1をトレーニングする。
i1は5つの代表的なベンチマーク(GenEval、DPG、PRISM、CVTG-2K、LongText)の上位モデルと競合し、既存の完全オープンモデルでは平均29.5ポイントで性能を上回っている。
i1チェックポイント、トレーニングと推論コード、データ処理パイプラインを提供します。
本研究の成果とi1レシピは,テキスト・画像拡散モデルにおける今後のオープンな研究の基盤となる。
私たちのコードはhttps://github.com/zlab-princeton/i1.comから入手可能です。
関連論文リスト
- DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。
我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。
DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文 参考訳(メタデータ) (2025-02-24T13:51:06Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [49.80911683739506]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文 参考訳(メタデータ) (2022-04-06T14:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。