論文の概要: Steady-Forcing: Balancing Spatial Persistence and Motion Continuity in Long-Horizon Nature Video Diffusion
- arxiv url: http://arxiv.org/abs/2606.14732v1
- Date: Tue, 02 Jun 2026 07:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.75474
- Title: Steady-Forcing: Balancing Spatial Persistence and Motion Continuity in Long-Horizon Nature Video Diffusion
- Title(参考訳): 定常運動:長距離自然拡散における空間持続性と運動継続性のバランス
- Authors: Matiur Rahman Minar, Seunghun Oh, GangHyeon Jeong, Unsang Park,
- Abstract要約: 自動回帰ビデオ拡散モデルはストリーミング生成を可能にするが、長時間のロールアウトでは劣化することが多い。
本研究では,この安定移動トレードオフを,固定カメラによる長距離自然映像生成において検討する。
本稿では,永続的視覚アンカー(V-Sink),指数的移動平均運動メモリ(EMA-Sink),ブロック相対時間符号化,周期的キャッシュの浄化,Wan2.1-14B教師の蒸留を組み合わせたメモリ・トレーニングフレームワークであるSteady-Forcingを提案する。
- 参考スコア(独自算出の注目度): 1.1666234644810893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive video diffusion models enable streaming generation but often degrade over long rollouts: static scene layouts drift, while mechanisms that improve spatial stability tend to suppress motion, causing natural flows such as water, fire, or smoke to stagnate. We study this stability-motion trade-off in fixed-camera long-horizon nature video generation, where the two failure modes can be more clearly separated than in moving-camera settings. We propose Steady-Forcing, a memory and training framework combining a persistent visual anchor (V-Sink), an exponential moving-average motion memory (EMA-Sink), block-relative temporal encoding, periodic cache purification, and distillation from a Wan2.1-14B teacher with motion-rewarded priors under task-focused configurations. Together, these components are designed to preserve background identity while sustaining visually plausible fluid dynamics over multi-minute autoregressive rollouts. Evaluations across seven baselines show that Steady-Forcing improves long horizon background consistency and imaging quality, while a blind user study indicates stronger perceived stability and motion continuity. The benchmark evaluation further suggest that generic VBench aggregate scores under-penalize fixed-camera artifacts as well as rewarding drift-induced optical flow as Dynamic Degree while not directly penalizing texture hardening or flow stagnation - motivating future task-specific benchmarks for static-camera nature-flow evaluation. Project page: https://minar09.github.io/steadyforcing/
- Abstract(参考訳): 静的なシーンレイアウトはドリフトするが、空間的安定性を改善するメカニズムは動きを抑制する傾向にあり、水、火、煙などの自然の流れが停滞する。
本研究では,固定カメラの長距離自然映像生成において,2つの障害モードを移動カメラ設定よりも明瞭に分離できる安定移動トレードオフについて検討する。
本稿では,永続的視覚アンカー(V-Sink),指数的移動平均運動メモリ(EMA-Sink),ブロック相対的時間エンコーディング,周期的キャッシュの浄化,Wan2.1-14B教師によるタスク中心の設定による蒸留を併用したメモリ・トレーニングフレームワークであるSteady-Forcingを提案する。
これらのコンポーネントは、複数分間の自己回帰ロールアウト上で視覚的に可視な流体力学を維持しながら、背景のアイデンティティを保持するように設計されている。
7つのベースラインにまたがる評価では、ステディ・フォースは長い地平線背景の一貫性と画像品質を改善する一方、ブラインド・ユーザ・スタディはより強く知覚される安定性と動きの連続性を示している。
さらに,VBench集約スコアが固定カメラアーティファクトを過小評価し,ダイナミックデグリーとしてドリフト誘起光フローを報いる一方で,テクスチャ硬化やフローの停滞を直接ペナルライズしていないことが示唆された。
プロジェクトページ: https://minar09.github.io/steadyforcing/
関連論文リスト
- DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation [51.58559206569209]
我々は,コンパクトなメモリバンクを保守し,動的フレームシンクとして視覚的に関連する歴史的フレームを選択する検索ベースのフレームワークであるDySinkを提案する。
分長ビデオの実験では、DySinkは強いベースラインよりもダイナミックな度合いを一貫して改善し、同時に時間的品質も向上している。
論文 参考訳(メタデータ) (2026-05-20T11:01:01Z) - TeDiO: Temporal Diagonal Optimization for Training-Free Coherent Video Diffusion [30.705936075333465]
不整合なビデオは、中間的自己注意マップにおいて、不規則で断片化された時間的対角線を常に示している。
本稿では,これらの内部の注意パターンを規則化し,時間的一貫性を補強するトレーニング不要な推論時間手法TeDiOを紹介する。
論文 参考訳(メタデータ) (2026-05-13T21:39:50Z) - SoLAR: Error-Resilient Streamable Long-Horizon Free-Viewpoint Video Reconstruction with Anchor Activation and Latent Recalibration [57.159190580279585]
ビット割り当て理論により、速度歪み最適化フレームワーク内で動的アンカーベースのボリュームビデオ表現を解析する。
我々は,長いシーケンスの復元品質を安定的に維持する,エラー回復性の最初のFVVフレームワークである textbfSoLAR を提案する。
論文 参考訳(メタデータ) (2026-05-08T06:48:59Z) - Relax Forcing: Relaxed KV-Memory for Consistent Long Video Generation [73.84423888025171]
オートレグレッシブ(AR)ビデオ拡散は,近年,長大なビデオ生成において有望なパラダイムとして浮上している。
時間的劣化が進行しているため, 生成から微小スケールの地平線への延長は依然として困難であることを示す。
本稿では,AR拡散のための時間記憶機構であるRelax Forcingを紹介する。
論文 参考訳(メタデータ) (2026-03-22T18:59:24Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation [16.692450893925148]
リアルタイム・ポートレート・アニメーションのためのKnot Forcingという新しいストリーミング・フレームワークを提案する。
Kノットフォーシングは、無限列上の高忠実で時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にする。
論文 参考訳(メタデータ) (2025-12-25T16:34:56Z) - Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - DiViD: Disentangled Video Diffusion for Static-Dynamic Factorization [2.0032531485183345]
静的・動的因数分解のための最初のエンドツーエンドビデオ拡散フレームワークであるDiViDを紹介する。
DiViDは、最初のフレームとフレームごとの動的トークンからグローバルな静的トークンを抽出し、モーションコードから静的コンテンツを明示的に削除する。
我々は、スワップベースの精度とクロスリーカシメトリクスを用いて、実世界のベンチマーク上でDiViDを評価する。
論文 参考訳(メタデータ) (2025-07-18T14:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。