論文の概要: teasr: training-efficient any-step diffusion transformer for real-world image super-resolution
- arxiv url: http://arxiv.org/abs/2606.16188v1
- Date: Mon, 15 Jun 2026 04:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.069821
- Title: teasr: training-efficient any-step diffusion transformer for real-world image super-resolution
- Title(参考訳): ティーザー:現実世界の超高解像度画像のためのトレーニング効率の非ステップ拡散トランスフォーマー
- Authors: Xiang Gao, Chenxin Zhu, Yushun Fang, Qiang Hu, Xiaoyun Zhang,
- Abstract要約: TEASRはReal-ISRのためのトレーニング効率の良い任意のステップ拡散フレームワークである。
我々のキーとなる考え方は、単一拡散モデル内で自己逆蒸留を行うことである。
ノイズレベルの一段階生成を安定化する時間ステップ対応補正戦略を提案する。
- 参考スコア(独自算出の注目度): 10.733502031936958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models excel in Real-World Image Super-Resolution (Real-ISR) due to their powerful generative priors but suffer from slow iterative sampling. Although existing one-step distillation methods accelerate inference, they typically require auxiliary teacher models that inflate training memory and restrict scalability to large-scale architectures. Furthermore, these fixed-step models lack the flexibility to trade off speed for quality. In this paper, we propose TEASR, a training-efficient any-step diffusion framework for Real-ISR that enables both one-step and multi-step restoration within a unified model. Our key idea is to perform self-adversarial distillation within a single diffusion model, eliminating the need for auxiliary teachers or discriminators. Specifically, we propose a timestep-aware rectification strategy that stabilizes one-step generation across noise levels. These two designs further enables the distillation of 20B-parameter diffusion models on a single GPU, significantly improving training efficiency. Moreover, we introduce a dual-branch diffusion transformer with decoupled timestep condition to separate the current noise state and the denoising target to enhance sampling quality. Extensive experiments demonstrate that TEASR supports seamless any-step sampling and consistently outperforms state-of-the-art methods across multiple datasets.
- Abstract(参考訳): 拡散モデルは、実世界の超解像(Real-ISR)において、強力な生成前駆体により優れているが、反復サンプリングが遅い。
既存の一段階蒸留法は推論を加速するが、訓練用メモリを膨張させ、大規模アーキテクチャに拡張性を制限する補助的な教師モデルを必要とするのが一般的である。
さらに、これらの固定ステップモデルは、品質のためにスピードをトレードオフする柔軟性に欠けています。
本稿では,Real-ISRのためのトレーニング効率の高い任意のステップ拡散フレームワークであるTEASRを提案する。
我々の鍵となる考え方は、単一拡散モデル内で自己共分散蒸留を行うことであり、補助教師や差別者の必要性をなくすことである。
具体的には、ノイズレベルの一段階生成を安定化する時間ステップ対応補正戦略を提案する。
これらの2つの設計により、1つのGPU上で20Bパラメータ拡散モデルの蒸留が可能となり、トレーニング効率が大幅に向上した。
さらに,分離した時間ステップ条件のデュアルブランチ拡散変圧器を導入し,現在のノイズ状態とデノナイジングターゲットを分離し,サンプリング品質を向上させる。
大規模な実験により、TEASRはシームレスな任意のステップサンプリングをサポートし、複数のデータセットにわたる最先端メソッドを一貫して上回っていることが示されている。
関連論文リスト
- Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation [2.3359837623080613]
本研究は,拡散訓練を生成前訓練の一形態と見なすことができることを示す。
パラメータの85%が凍結した事前学習モデルの微調整により、ワンステップ生成モデルを作成する。
論文 参考訳(メタデータ) (2025-06-11T03:55:26Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Supercharged One-step Text-to-Image Diffusion Models with Negative Prompts [19.609393551644562]
負のプロンプトを1段階拡散モデルに統合する効率的な方法である textbfNegative-textbfAway textbfSteer textbfAttention (NASA) を導入する。
NASAは、望ましくない視覚特性を抑えるためにクロスアテンション機構を活用することで、中間表現空間内で運用している。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。