論文の概要: CoDMD: Copula-aware Distribution Matching Distillation for Fast Video Generation
- arxiv url: http://arxiv.org/abs/2606.21982v1
- Date: Sat, 20 Jun 2026 10:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:26:01.118906
- Title: CoDMD: Copula-aware Distribution Matching Distillation for Fast Video Generation
- Title(参考訳): CoDMD:Copula-aware Distribution Matching Distillation for Fast Video Generation
- Authors: Wenhu Zhang, Kun Cheng, Changyuan Wang, Shiyao Li, Yuechen Zhang, Wenbo Li, Jiajun Zha, Jingyi Zhang, Kang Zhao, Jiaya Jia,
- Abstract要約: 実世界のシナリオにおける効率的な展開の急激な需要により,ビデオ拡散モデルの蒸留が注目されている。
我々は,凍結教師とオンライン偽モデルによって既に生成されているスコア推定を再利用し,対関係行列を構成する軽量リレーショナルレギュレータであるCopula-Aware DMD(CoDMD)を提案する。
1.3Bと14BスケールのWan-2.1-T2Vモデルシリーズで、CoDMDは50ステップの教師を4ステップの学生に蒸留し、VBenchスコア84.46と84.87を達成しながら、およそ25$times$ Speed-upを達成した。
- 参考スコア(独自算出の注目度): 50.353919095724315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-step distillation for video diffusion models has attracted significant attention, driven by the urgent demand for efficient deployment in real-world scenarios. However, Distribution Matching Distillation (DMD), a leading paradigm, tends to degrade under limited NFE budgets, manifesting in video generation as layout instability, oversaturation, and broken motion dynamics. We trace this failure to a structural limitation: standard DMD is an intra-sample distribution-matching objective with coordinate-wise gradients, and thus imposes no explicit constraint on the relational geometry across batch elements or temporal frames, leaving the underlying copula largely unregulated. Combined with the mode-seeking tendency of its reverse-KL objective, this absence of relational guidance makes DMD prone to collapsing into local optima in the few-step regime. Motivated by this insight, we propose Copula-aware DMD (CoDMD), a lightweight relational regularizer that reuses score estimates already produced by the frozen teacher and the online fake model to construct pairwise relation matrices across samples and frames. These are matched through a supplementary distributional objective that requires no additional networks, datasets, or sampling trajectories. On the Wan-2.1-T2V model series at 1.3B & 14B scales, CoDMD distills 50-step teachers into 4-step students, achieving an approximate 25$\times$ speed-up while attaining VBench scores of 84.46 & 84.87, outperforming prior trajectory-based (rCM 82.81 & 84.05) and distribution-based (DMD 83.38 & 83.81) methods.
- Abstract(参考訳): 実世界のシナリオにおける効率的な展開の急激な需要により,ビデオ拡散モデルの蒸留が注目されている。
しかし、主要なパラダイムであるDis Distribution Matching Distillation (DMD)は、限られたNFE予算の下で劣化する傾向にあり、ビデオ生成ではレイアウト不安定、過飽和、破壊運動力学として現れる。
標準MDDは座標的な勾配を持つサンプル内分布マッチングの目的であり、したがってバッチ要素や時間的フレーム間の関係幾何学に明示的な制約を課さず、基礎となるコプラはほとんど制御されていない。
逆KL目標のモード探索傾向と組み合わさって、リレーショナルガイダンスの欠如により、MDDは数段階体制において局所最適状態に崩壊する傾向にある。
この知見に触発されて,凍結教師が既に生み出したスコア推定とオンライン偽モデルを用いて,サンプルとフレーム間の相互関係行列を構築する軽量リレーショナルレギュレータであるCopula-aware DMD(CoDMD)を提案する。
これらは、追加のネットワーク、データセット、サンプリングトラジェクトリを必要としない追加の分散目的によって一致します。
1.3Bと14BスケールのWan-2.1-T2Vモデルシリーズでは、50ステップの教師を4ステップの学生に蒸留し、VBenchスコア84.46と84.87を達成しながら25$\times$スピードアップを達成した。
関連論文リスト
- Continuous-Time Distribution Matching for Few-Step Diffusion Distillation [57.28746398500951]
本稿では,CDM(Continuous-Time Distribution Matching)を導入し,DMDフレームワークを個別アンカーから連続最適化へ移行する。
まず、固定離散スケジュールをランダム長の動的連続スケジュールに置き換える。
第二に、学生の速度場を介して外挿された潜伏者に対してアクティブな軌道外マッチングを行う連続時間アライメント目的を提案する。
論文 参考訳(メタデータ) (2026-05-07T14:56:39Z) - Training-Free Distribution Adaptation for Diffusion Models via Maximum Mean Discrepancy Guidance [17.353524034156205]
MMD Guidanceは、生成したサンプルと参照データセットの間の最大平均離散度(MMD)の勾配で逆拡散プロセスを強化する。
当社のフレームワークは,製品カーネルによる条件付き生成モデルにおけるアクシデント対応に自然に拡張する。
合成および実世界のベンチマーク実験により、MDD Guidanceはサンプルの忠実さを保ちながら分布アライメントを達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-13T09:42:57Z) - Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals [48.14879329270912]
フェーズドDMDは、Mixture-of-Expertsでフェーズワイド蒸留のアイデアを橋渡しする多段階蒸留フレームワークである。
位相MDDはプログレッシブな分布マッチングとサブインターバル内のスコアマッチングという2つの主要なアイデアに基づいて構築されている。
実験結果から,第2相DMDはDMDよりも出力の多様性を保ちつつ,重要な生成能力を保っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-31T17:55:10Z) - Collaborative-Distilled Diffusion Models (CDDM) for Accelerated and Lightweight Trajectory Prediction [14.108460337857645]
軌道予測は自律走行車(AV)とインテリジェントトランスポーテーションシステム(ITS)の基本課題である
拡散モデルは最近、確率的軌道予測において強い性能を示した。
本稿では, リアルタイムかつ軽量な軌道予測手法であるCDDMを提案する。
論文 参考訳(メタデータ) (2025-10-01T08:00:31Z) - Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。
提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文 参考訳(メタデータ) (2025-07-24T16:45:05Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。