論文の概要: Learning When to Denoise: Optimizing Asynchronous Schedules for Latent Diffusion
- arxiv url: http://arxiv.org/abs/2606.19662v1
- Date: Thu, 18 Jun 2026 00:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.588026
- Title: Learning When to Denoise: Optimizing Asynchronous Schedules for Latent Diffusion
- Title(参考訳): 遅延拡散のための非同期スケジューリングの最適化
- Authors: Bingshuo Qian, Xiang Cheng,
- Abstract要約: 多表現拡散モデルは、画像の相補的なビューを識別することで視覚合成を改善することができる。
提案手法は,複数の表現空間上での非同期フローマッチングを定式化する。
このスケジュールは、1%未満のトレーニング計算で高速なジョイントプローブを用いて学習する。
- 参考スコア(独自算出の注目度): 9.071145174881565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-representation diffusion models can improve visual synthesis by denoising complementary views of an image, but their performance depends critically on the asynchronous schedule that determines when each representation is denoised. We propose to learn this schedule. Our method formulates asynchronous flow matching over multiple representation spaces and uses a schedule-corrected objective that keeps each representation's local noising-time weights fixed as the schedule changes. We instantiate the schedule with a flexible parametric class that is convex and monotone by construction, and learn it using a fast joint probe with less than 1% additional training compute. On ImageNet 256x256, the learned schedule substantially improves both convergence speed and final quality under a matched 675M-parameter XL backbone. With AutoGuidance, our 200-epoch model reaches FID 1.05, matching the 800-epoch SFD-XL baseline with 4x less training. Training to 600 epochs further improves to FID 1.02, outperforming the 1B-parameter SFD-XXL result of FID 1.04 while using a smaller model. In the unguided setting, our 200-epoch model reaches FID 2.37, already below the best 800-epoch SFD-XL result (2.54) at 4x less training, and improves to FID 2.14 at 600 epochs. Code is available at https://github.com/bsq532087/LWD
- Abstract(参考訳): 多表現拡散モデルは、画像の相補的なビューを識別することで視覚合成を改善することができるが、それらの性能は、各表現が特定されるタイミングを決定する非同期スケジュールに大きく依存する。
私たちはこのスケジュールを学ぶことを提案する。
提案手法は,複数の表現空間にまたがる非同期フローマッチングを定式化し,スケジュール変更時に各表現の局所的な雑音時間重みを固定するスケジュール修正目標を用いる。
コンベックスと単調なフレキシブルパラメトリッククラスを用いてスケジュールをインスタンス化し、1%以下のトレーニング計算で高速なジョイントプローブを用いて学習する。
ImageNet 256x256では、学習スケジュールは一致した675MパラメータXLバックボーンの下で収束速度と最終品質の両方を大幅に改善する。
AutoGuidanceでは、私たちの200エポックモデルがFID 1.05に達し、800エポックSFD-XLベースラインと4倍のトレーニングで一致します。
600エポック級の訓練はFID 1.02にさらに改善され、FID 1.04の1BパラメーターSFD-XXLよりも小さいモデルで性能が向上した。
200エポックモデルがFID 2.37に達し、4倍のトレーニングで800エポックSFD-XL結果(2.54)をすでに下回っており、600エポックではFID 2.14に改善されている。
コードはhttps://github.com/bsq532087/LWDで入手できる。
関連論文リスト
- Diffusion Image Generation with Explicit Modeling of Data Manifold Geometry [64.61931485161833]
画像生成モデルは、基礎となるデータ多様体からデータポイントをサンプリングすることを目的としている。
データマニフォールド対応画像差分法(MIND)を提案する。
MINDは離散パッチトークン化を連続拡散モデルのスコア関数に統合する。
論文 参考訳(メタデータ) (2026-05-25T08:43:14Z) - Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:29:18Z) - DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction [47.483590046908844]
本稿では,粗い1次元自己回帰(AR)画像生成法であるDetailFlowを提案する。
DetailFlowは、段階的に劣化したイメージで管理される解像度対応トークンシーケンスを学習することにより、グローバルな構造から生成プロセスを開始することができる。
提案手法は,従来の手法よりもはるかに少ないトークンで高品質な画像合成を実現する。
論文 参考訳(メタデータ) (2025-05-27T17:45:21Z) - TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training [25.744324109042385]
拡散モデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。
TREADは計算コストを削減し、同時にモデル性能を向上することを示す。
ガイド付きで2.09、ガイドなしで3.93の競合FIDを達成する。
論文 参考訳(メタデータ) (2025-01-08T18:38:25Z) - David and Goliath: Small One-step Model Beats Large Diffusion with Score Post-training [8.352666876052616]
Diff-Instruct* (DI*) は1ステップのテキスト・ツー・イメージ生成モデルのためのデータ効率のよいポストトレーニング手法である。
提案手法は,人的フィードバックからオンライン強化学習としてアライメントを行う。
我々の2.6B emphDI*-SDXL-1stepモデルは、50ステップのFLUX-devモデルより優れている。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Differentiable Point-Based Radiance Fields for Efficient View Synthesis [57.56579501055479]
本稿では,効率的な新規ビュー合成のための微分可能レンダリングアルゴリズムを提案する。
我々の手法は、トレーニングと推論の両方において、NeRFよりも最大300倍高速である。
ダイナミックなシーンでは,STNeRFよりも2桁早く,ほぼインタラクティブなレートでレンダリングを行う。
論文 参考訳(メタデータ) (2022-05-28T04:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。