論文の概要: FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2606.10671v1
- Date: Tue, 09 Jun 2026 10:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.442206
- Title: FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion
- Title(参考訳): FadeMem: 自動回帰ビデオ拡散のための距離対応メモリ統合
- Authors: Yu Lu, Junjie Yang, Piotr Koniusz, YuXin Song, Yi Yang,
- Abstract要約: FadeMemは、歴史的なKVブロックを固定キャッシュ予算の下で時間階層に整理する。
新しい歴史はきめ細かいエントリとして挿入され、古い隣のエントリは徐々にマージされる。
実験では、既存の有界キャッシュ戦略よりも、被験者の一貫性、背景安定性、時間的コヒーレンスが改善された。
- 参考スコア(独自算出の注目度): 59.207505503284715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive video generators synthesize long videos by generating successive temporal segments, but their historical KV cache grows with video length. Existing bounded-cache methods reduce this cost with local windows, sink tokens, or compressed memory states, yet they usually assign fixed roles to different parts of the history. We propose FadeMem, a distance-aware KV memory consolidation mechanism that organizes historical KV blocks into a temporal hierarchy under a fixed cache budget. This design is motivated by frequency-dependent temporal decay: fine details decorrelate quickly, while coarse scene structure and identity remain useful over longer horizons. During generation, new history is inserted as fine-grained entries, while older adjacent entries are progressively merged under a power-law temporal allocation schedule, yielding a dense-near, sparse-far memory within one cache. Without architectural changes, FadeMem preserves recent context for short-term dynamics and compact long-range anchors for identity and scene coherence. Experiments show improved subject consistency, background stability, and temporal coherence over existing bounded-cache strategies.
- Abstract(参考訳): 自動回帰ビデオジェネレータは、連続した時間セグメントを生成して長いビデオを合成するが、その歴史的KVキャッシュはビデオ長とともに増大する。
既存のbounded-cacheメソッドは、ローカルウィンドウ、シンクトークン、あるいは圧縮されたメモリステートでこのコストを削減するが、それらは通常、履歴の異なる部分に固定されたロールを割り当てる。
固定キャッシュ予算の下で,歴史的KVブロックを時間階層に整理する,距離対応KVメモリ統合機構であるFadeMemを提案する。
この設計は周波数依存の時間減衰によって動機付けられており、細部は急速に矛盾するが、粗いシーン構造とアイデンティティは長い地平線上で有用である。
生成の間、新しい履歴はきめ細かいエントリとして挿入され、古い隣接エントリは、パワールールの時間割当スケジュールの下で徐々にマージされ、1つのキャッシュ内に密集したスパースファームメモリが生成される。
アーキテクチャ上の変更がなければ、FadeMemは短期的なダイナミクスと、アイデンティティとシーンコヒーレンスのためのコンパクトな長距離アンカーのために、最近の状況を保存する。
実験では、既存の有界キャッシュ戦略よりも、被験者の一貫性、背景安定性、時間的コヒーレンスが改善された。
関連論文リスト
- SlotMemory: Object-Centric KV Memory for Streaming Long-Video Generation [30.157534925157844]
SlotMemoryは、ビデオ拡散をストリーミングするためのオブジェクト中心のKey-Valueメモリメカニズムである。
我々のアプローチでは、イベントが発生したときのメモリ抽象化を、トランスフォーマーのキー-値多様体を分解することで、"何"が表現されているかに変換する。
論文 参考訳(メタデータ) (2026-05-29T09:04:26Z) - DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation [51.58559206569209]
我々は,コンパクトなメモリバンクを保守し,動的フレームシンクとして視覚的に関連する歴史的フレームを選択する検索ベースのフレームワークであるDySinkを提案する。
分長ビデオの実験では、DySinkは強いベースラインよりもダイナミックな度合いを一貫して改善し、同時に時間的品質も向上している。
論文 参考訳(メタデータ) (2026-05-20T11:01:01Z) - Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion [61.57938553036056]
ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2026-05-15T19:33:45Z) - Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation [48.476317015122625]
Echo-Forcingは、インタラクティブなロングビデオ生成のためのトレーニング不要のシーンメモリフレームワークである。
キャッシュのバウンダリでスムーズなトランジション、ハードカット、長距離シーンリコールをサポートする。
論文 参考訳(メタデータ) (2026-05-15T14:33:09Z) - SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation [31.105007908298003]
ストリーミング長ビデオ生成は、連続的なセマンティックスイッチングにおいて中心的な課題に直面している。
現在のアプローチは、プロンプトバウンダリや固定メモリ予算でのキャッシュ再構築に依存している。
マルチプロンプト長ビデオ生成のためのトレーニングフリーフレームワークであるSWIFTを提案する。
論文 参考訳(メタデータ) (2026-05-10T09:37:56Z) - MemRoPE: Training-Free Infinite Video Generation via Evolving Memory Tokens [34.228121359393775]
2つの共同設計コンポーネントを備えたトレーニングフリーフレームワークであるMemRoPEを紹介した。
オンラインRoPEインデックスは、回転しないキーをキャッシュし、注意時に位置埋め込みを動的に適用する。
MemRoPEは、時間的コヒーレンス、視覚的忠実度、主観的一貫性において、毎分から1時間単位で既存の手法より優れている。
論文 参考訳(メタデータ) (2026-03-12T23:14:16Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。