論文の概要: Towards Error-Free Long Video Generation
- arxiv url: http://arxiv.org/abs/2606.22370v1
- Date: Sun, 21 Jun 2026 07:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:40:04.581929
- Title: Towards Error-Free Long Video Generation
- Title(参考訳): エラーフリー長ビデオ生成に向けて
- Authors: Shuning Chang, Weihua Chen, Jiasheng Tang, Hao Xu, Zeyu Zhang, Hangjie Yuan, Yu Lu, Ruigang Niu, Fan Wang, Bohan Zhuang, Yi Yang,
- Abstract要約: 本稿では,高品質でダイナミックでアイデンティティに一貫性のある単一ショット長ビデオを生成する,無限長のビデオ生成フレームワークを提案する。
まず,大規模なショートビデオデータに基づいて拡散モデルをビデオ拡張モデルとして微調整し,時間的コヒーレントなクリップを自動的に生成する。
我々のフレームワークは、リアルでコヒーレントな微小レベルのビデオ合成のための新しいベンチマークを確立する。
- 参考スコア(独自算出の注目度): 56.86952045212838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video generation have made minute-level synthesis possible; however, generating long videos remains challenging due to error accumulation, attribute drift, and the limited availability of long video data. In this paper, we introduce an infinite-length video generation framework that focusing on addressing these issues and produces high-quality, dynamic, and identity-consistent single-shot long videos. We first finetune a diffusion model as a video extension model on large-scale short video data to autoregressively generate temporally coherent clips. Inspired by the success of large language models (LLMs), we adopt causal attention computation between clips to further finetune this model on long video data. In this way, the tokens in one clip (short video) are computed by bidirectional attention while tokens among clips are computed by unidirectional attention. This design leverages the strengths of modern diffusion models while preserving long-term context information, effectively mitigating error accumulation and attribute drift. To achieve memory efficiency during inference, we adopt a key-value (KV) caching mechanism to maintain a constant KV memory. Furthermore, we introduce truncation-rectified flow (T-RFlow) technique to further suppress error accumulation. Experimental results demonstrate the effectiveness of our method. Our framework establishes a new benchmark for realistic and coherent minute-level video synthesis.
- Abstract(参考訳): ビデオ生成の最近の進歩により、微細な合成が可能になったが、誤りの蓄積、属性のドリフト、長大なビデオデータの可用性の制限により、長大なビデオを生成することは依然として困難である。
本稿では,これらの問題に対処することに集中し,高品質でダイナミックで,かつ一眼一眼一眼一眼一眼一眼一眼ビデオを生成する無限長ビデオ生成フレームワークを提案する。
まず,大規模なショートビデオデータに基づいて拡散モデルをビデオ拡張モデルとして微調整し,時間的コヒーレントなクリップを自動的に生成する。
大規模言語モデル(LLMs)の成功に触発されて、クリップ間の因果注意計算を採用し、このモデルを長いビデオデータ上でさらに微調整する。
このように、1つのクリップ(ショートビデオ)内のトークンは双方向の注意によって計算され、クリップ間のトークンは一方向の注意によって計算される。
この設計は、長期の文脈情報を保存しながら、現代の拡散モデルの強みを活用し、エラー蓄積と属性ドリフトを効果的に軽減する。
推論中にメモリ効率を達成するために,キー値(KV)キャッシング機構を採用し,一定のKVメモリを維持する。
さらに,Truncation-rectified Flow (T-RFlow) 技術を導入し,エラーの蓄積を抑制する。
実験の結果,本手法の有効性が示された。
我々のフレームワークは、リアルでコヒーレントな微小レベルのビデオ合成のための新しいベンチマークを確立する。
関連論文リスト
- Long-Horizon Streaming Video Generation via Hybrid Attention with Decoupled Distillation [16.611062315689306]
本稿では,時間的情報保持と計算効率を協調的に最適化するハイブリッド・フォースを提案する。
我々のモデルは、量子化やモデル圧縮なしで、単一のNVIDIA H100 GPU上で29.5 FPSでリアルタイムな832x480ビデオ生成を実現する。
論文 参考訳(メタデータ) (2026-04-11T08:54:07Z) - Past- and Future-Informed KV Cache Policy with Salience Estimation in Autoregressive Video Diffusion [53.14908419375226]
既存のアプローチは一般的にKVキャッシュポリシーに依存しており、長期のビデオ生成におけるトークンの重要性の違いを無視している。
我々は,過去・未来型KVキャッシュポリシー(PaFu-KV)を提案する。
特にPaFu-KVは、双方向キャッシュ教師から抽出した軽量なサリエンス推定ヘッドを導入し、サリエンススコアを推定する。
このポリシーは、KVキャッシュ容量を小さくし、推論時にメモリフットプリントを減らすことで、より良い品質効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2026-01-29T15:55:29Z) - Pack and Force Your Memory: Long-form and Consistent Video Generation [26.53691150499802]
ロングフォームビデオ生成は2つの課題を提示します。
モデルは、自動回帰復号に固有のエラーの蓄積を防止しながら、長距離依存関係をキャプチャしなければなりません。
MemoryPackとDirect Forcingは、長期ビデオ生成のコンテキスト一貫性と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-02T08:22:46Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。
我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。
具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文 参考訳(メタデータ) (2024-12-13T14:50:26Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。