論文の概要: Beyond Consistency: Preserving Temporal Structure in Zero-Shot Video Editing
- arxiv url: http://arxiv.org/abs/2606.08780v1
- Date: Sun, 07 Jun 2026 18:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.44416
- Title: Beyond Consistency: Preserving Temporal Structure in Zero-Shot Video Editing
- Title(参考訳): 一貫性を超えて:ゼロショットビデオ編集における時間構造を保存する
- Authors: Deyin Liu, Yisheng Ding, Zhe Jin, Xiatian Zhu, Anjan Dutta, Lin Wu,
- Abstract要約: 既存のゼロショットビデオ編集手法では、ビデオの本来の時間構造を保存できない。
本稿では,映像の時間的構造を保存することに焦点を当てた新しいゼロショット編集手法を提案する。
提案手法は,従来の時間構造保存と計算効率のバランスをとることによって,最先端の計算結果を実現する。
- 参考スコア(独自算出の注目度): 48.768011768488584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing zero-shot video editing methods rely on pre-trained diffusion models, successfully achieving spatial control and basic temporal consistency but fundamentally fail to preserve the video's original temporal structure.This distinction is critical: temporal consistency ensures visual smoothness, but temporal structure dictates the video's high-level narrative, rhythm, and semantic flow. Without this preservation, the edited output, especially for long videos with complex semantic variations, becomes narratively incoherent and semantically ambiguous. To address this limitation, we introduce a novel zero-shot editing approach that, for the first time, explicitly focuses on preserving the source video's temporal structure. We achieve this by adaptively partitioning the video into semantically distinct clips based on feature similarity and selecting a representative anchor frame for each clip. To enhance both intra-clip fidelity and computational efficiency, we design a clip-adaptive token merging strategy which leverages the anchor's semantic dominance to stabilize the editing. Furthermore, we employ an alternating combination strategy that ensures seamless inter-clip transitions while maintaining semantic distinction. Extensive experiments demonstrate that our method achieves state-of-the-art results, successfully balancing the preservation of original temporal structure with computational efficiency, and setting a new benchmark for zero-shot video editing fidelity.
- Abstract(参考訳): 既存のゼロショットビデオ編集法は、事前訓練された拡散モデルに依存し、空間的制御と基本的な時間的整合性を達成するが、基本的にはビデオの本来の時間的構造を維持できない。
この保存がなければ、編集されたアウトプット、特に複雑な意味的バリエーションを持つ長いビデオは、物語的に一貫性がなく、意味的に曖昧になる。
この制限に対処するために、我々は、ソースビデオの時間的構造を明示的に保存することに焦点を当てた、新しいゼロショット編集アプローチを導入する。
特徴的類似性に基づいて,動画を意味的に異なるクリップに適応的に分割し,各クリップに対して代表アンカーフレームを選択することで,これを実現する。
クリップ内忠実度と計算効率を両立させるため,アンカーのセマンティック優位性を活用して編集を安定させるクリップ適応型トークンマージ戦略を設計する。
さらに、セマンティックな区別を維持しつつ、シームレスなクリック間遷移を保証する交互組み合わせ戦略を採用する。
広範にわたる実験により,本手法は最先端の結果を達成し,元の時間構造保存と計算効率のバランスを保ち,ゼロショット映像編集の精度向上のための新しいベンチマークを設定した。
関連論文リスト
- Occlusion-Aware Physics-Semantic Keyframe Selection for Robust Video Editing [53.06890499054828]
下流編集のための最適なアンカーフレームを自動的に識別するオクルージョン対応選択フレームワークを提案する。
我々のフレームワークは、手動のアノテーションを必要とせずに、正確かつ時間的に一貫した編集を可能にする。
論文 参考訳(メタデータ) (2026-05-22T03:19:24Z) - VALA: Learning Latent Anchors for Training-Free and Temporally Consistent [29.516179213427694]
本稿では,キーフレームを適応的に選択し,その潜在機能をセマンティックアンカーに圧縮し,一貫したビデオ編集を行う変分アライメントモジュールであるVALAを提案する。
本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
論文 参考訳(メタデータ) (2025-10-27T03:44:11Z) - Text2Story: Advancing Video Storytelling with Text Guidance [19.901781116843942]
本研究では、シーンとアクションプロンプトを統合し、動的にインスパイアされたプロンプトミキシングによってこれを実現できる新しいストーリーテリングフレームワークを提案する。
本研究では,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的にバランスさせる動的インフォームドプロンプト重み付け機構を提案する。
動きの連続性をさらに向上するために、ハイレベルなアクション意味論をブレンディングプロセスにエンコードするために、セマンティックアクション表現を組み込む。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。