論文の概要: Data-Forcing Distillation: Restoring Diversity and Fidelity in Few-Step Video Generation
- arxiv url: http://arxiv.org/abs/2606.18478v2
- Date: Tue, 23 Jun 2026 08:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.224778
- Title: Data-Forcing Distillation: Restoring Diversity and Fidelity in Few-Step Video Generation
- Title(参考訳): データ強制蒸留:フットステップビデオ生成における多様性と忠実さの回復
- Authors: Siyi Chen, Shaowei Liu, Yixuan Jia, Zian Wang, Huan Ling, Qing Qu, Jun Gao,
- Abstract要約: 単行のコード変更だけでMDDの多様性と忠実性を回復する単純なポストトレーニングフレームワークであるData-Forcing Distillation (DFD)を提案する。
我々は,我々のフレームワークの詳細な理論的分析を行い,テキスト・ツー・ビデオ,画像・ツー・ビデオ,自動回帰ビデオ生成に対する我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 25.352409052792122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress has shown promise in distilling multi-step video diffusion models into efficient few-step students. Among them, Distribution Matching Distillation (DMD) and its successor DMD2 achieved strong generation quality and fast convergence. However, due to the nature of the reverse Kullback--Leibler (KL) objective, these methods exhibit two persistent failure modes: a substantial drop in sample diversity, and visibly over-saturated outputs that deviate from real-video appearance. In this work, we propose Data-Forcing Distillation (DFD), a simple post-training framework that restores diversity and fidelity in DMD with only a single-line of code change. At its core is the teacher score discrepancy to guide the student toward the real-data distribution, pulling it to missing modes (mitigating mode collapse) and away from problematic modes absent in real data (avoiding over-saturation). We provide an in-depth theoretical analysis of our framework and validate our approach on text-to-video, image-to-video, and autoregressive video generation. With only 100--300 steps of finetuning, DFD effectively restores diversity and fidelity on both Wan2.1-1.3B and Cosmos-Predict2.5-2B model, resolving the over-saturation artifacts with significantly better video dynamics and appearance, and even outperforms the teacher model.
- Abstract(参考訳): 近年の進歩は、多段階ビデオ拡散モデルを効率の良い数段階の学生に蒸留する可能性を示している。
その中でも、DMD(Distributed Matching Distillation)とその後継DMD2は、強力な生成品質と高速収束を実現した。
しかしながら、KL(Kulback--Leibler)の逆の目的のため、これらの手法は2つの持続的な障害モードを示す: サンプルの多様性の大幅な低下と、実映像の外観から逸脱する過飽和出力である。
本研究では,単行のコード変更だけでMDDの多様性と忠実さを回復するシンプルなポストトレーニングフレームワークであるData-Forcing Distillation (DFD)を提案する。
その中核は、教師のスコアの相違によって、生徒が実際のデータ分布に向かって誘導し、それを欠落モード(緩和モード崩壊)に引きずり出し、実際のデータに欠けている問題モード(過飽和)から遠ざかる。
我々は,我々のフレームワークの詳細な理論的分析を行い,テキスト・ツー・ビデオ,画像・ツー・ビデオ,自動回帰ビデオ生成に対する我々のアプローチを検証する。
100-300段階の微調整で、DFDはWan2.1-1.3BモデルとCosmos-Predict2.5-2Bモデルの両方の多様性と忠実さを効果的に回復し、ビデオのダイナミクスと外観を著しく改善し、教師モデルよりも優れている。
関連論文リスト
- Transition Matching Distillation for Fast Video Generation [63.1049790376783]
本稿では,ビデオ拡散モデルを効率の良い数ステップ生成器に蒸留するための新しいフレームワークであるTransition Matching Distillation (TMD)を提案する。
TMDは拡散モデルの多段階認知軌道と数段階の確率遷移過程とを一致させる。
TMDは、生成速度と視覚的品質の間の柔軟性と強力なトレードオフを提供する。
論文 参考訳(メタデータ) (2026-01-14T21:30:03Z) - Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [57.33788820909211]
本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。
提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
論文 参考訳(メタデータ) (2025-06-03T17:55:04Z) - Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework [127.61297651993561]
様々な自動回帰ビデオ拡散モデル(ARVDM)は、リアルなロングフォームビデオの生成において顕著な成功を収めた。
我々はこれらのモデルに関する理論的基盤を開発し、既存のモデルの性能を改善するために洞察を利用する。
論文 参考訳(メタデータ) (2025-03-12T15:32:44Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Supercharged One-step Text-to-Image Diffusion Models with Negative Prompts [19.609393551644562]
負のプロンプトを1段階拡散モデルに統合する効率的な方法である textbfNegative-textbfAway textbfSteer textbfAttention (NASA) を導入する。
NASAは、望ましくない視覚特性を抑えるためにクロスアテンション機構を活用することで、中間表現空間内で運用している。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。