論文の概要: TetherCache: Stabilizing Autoregressive Long-Form Video Generation with Gated Recall and Trusted Alignment
- arxiv url: http://arxiv.org/abs/2606.13035v1
- Date: Thu, 11 Jun 2026 08:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.665897
- Title: TetherCache: Stabilizing Autoregressive Long-Form Video Generation with Gated Recall and Trusted Alignment
- Title(参考訳): TetherCache: Gated RecallとTrusted Alignmentによる自動回帰長ビデオ生成の安定化
- Authors: Yu Meng, Xiangyang Luo, Letian Li, Wenyuan Jiang, Chen Gao, Xinlei Chen, Yong Li, Xiao-Ping Zhang,
- Abstract要約: ドリフト耐性長ビデオ生成のためのトレーニングフリーでプラグアンドプレイのキャッシュ管理戦略であるTetherCacheを提案する。
Gated Recall with Attention-Diversity Balancingは、ゲートスコアを使用して長距離メモリフレームを選択する。
TAMEは、信頼されたコンテキスト分布に統計を合わせることで、新しくリコールされたメモリトークンを軽量に編集する。
- 参考スコア(独自算出の注目度): 51.33418612284208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive video diffusion models provide a natural formulation for streaming and variable-length video generation by conditioning newly generated frames on previously generated content. However, extending these models to minute-level generation remains challenging: the limited KV-cache budget prevents the model from retaining the full history, while repeatedly conditioning on self-generated frames induces a context distribution shift that accumulates over time, leading to visual artifacts, quality degradation, and temporal drift. In this paper, we propose TetherCache, a training-free and plug-and-play cache management strategy for drift-resistant long video generation. TetherCache organizes the cache into sink, memory, and recent regions, and introduces two complementary mechanisms. First, GRAB (Gated Recall with Attention-Diversity Balancing) selects long-range memory frames using a gated score that combines attention-based relevance with temporal diversity, preserving informative yet diverse historical context under a fixed cache budget. Second, TAME (Trusted Alignment via Memory Editing) lightly edits newly recalled memory tokens by aligning their statistics to a trusted context distribution, reducing the pollution caused by drifted historical features. Built on Self-Forcing, TetherCache consistently improves long-video generation quality on VBench-Long across 30s, 60s, and 240s settings. In particular, for 240s generation, it substantially improves overall and semantic scores while reducing quality drift from 7.84 to 1.33, demonstrating its effectiveness for stable long-horizon autoregressive video diffusion.
- Abstract(参考訳): 自己回帰ビデオ拡散モデルは、以前に生成されたコンテンツに新たに生成されたフレームを条件付けすることで、ストリーミングおよび可変長ビデオ生成のための自然な定式化を提供する。
限られたKVキャッシュ予算は、モデルが完全な履歴を保持するのを防ぐ一方で、自己生成フレームに繰り返し条件を付けることで、時間とともに蓄積されるコンテキスト分散シフトを誘発し、視覚的アーティファクト、品質劣化、時間的ドリフトにつながる。
本稿では,ドリフト抵抗長ビデオ生成のためのトレーニングフリーでプラグアンドプレイのキャッシュ管理戦略であるTetherCacheを提案する。
TetherCacheはキャッシュをシンク、メモリ、最近のリージョンに整理し、2つの補完メカニズムを導入している。
まず、GRAB(Gated Recall with Attention-Diversity Balancing)は、注意に基づく関連性と時間的多様性を組み合わせ、固定キャッシュ予算の下で情報的かつ多様な歴史的コンテキストを保存するゲートスコアを用いて、長距離メモリフレームを選択する。
第2に、TAME(Trusted Alignment via Memory Editing)は、その統計情報を信頼できるコンテキスト分布に整列させることで、新しいメモリトークンを軽量に編集し、漂流した歴史的特徴による汚染を減らす。
Self-Forcing上に構築されたTetherCacheは、30s、60s、240s設定でVBench-Longの長時間ビデオ生成品質を継続的に改善する。
特に240世代では、画質のドリフトを7.84から1.33に減らし、全体的なスコアとセマンティックスコアを大幅に改善し、安定した長距離自己回帰ビデオ拡散の有効性を示した。
関連論文リスト
- FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion [59.207505503284715]
FadeMemは、歴史的なKVブロックを固定キャッシュ予算の下で時間階層に整理する。
新しい歴史はきめ細かいエントリとして挿入され、古い隣のエントリは徐々にマージされる。
実験では、既存の有界キャッシュ戦略よりも、被験者の一貫性、背景安定性、時間的コヒーレンスが改善された。
論文 参考訳(メタデータ) (2026-06-09T10:22:18Z) - SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation [31.105007908298003]
ストリーミング長ビデオ生成は、連続的なセマンティックスイッチングにおいて中心的な課題に直面している。
現在のアプローチは、プロンプトバウンダリや固定メモリ予算でのキャッシュ再構築に依存している。
マルチプロンプト長ビデオ生成のためのトレーニングフリーフレームワークであるSWIFTを提案する。
論文 参考訳(メタデータ) (2026-05-10T09:37:56Z) - Flow caching for autoregressive video generation [72.10021661412364]
自動回帰ビデオ生成に特化して設計された,最初のキャッシュフレームワークであるFlowCacheを紹介する。
本手法は,MAGI-1では2.38倍,SkyReels-V2では6.7倍,品質劣化は無視できない。
論文 参考訳(メタデータ) (2026-02-11T13:11:04Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。