論文の概要: Vera: A Layered Diffusion Model for Content-Preserving Video Editing
- arxiv url: http://arxiv.org/abs/2606.23610v1
- Date: Mon, 22 Jun 2026 17:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:51:31.514153
- Title: Vera: A Layered Diffusion Model for Content-Preserving Video Editing
- Title(参考訳): Vera:コンテンツ保存ビデオ編集のための層拡散モデル
- Authors: Hongkai Zheng, Ta-Ying Cheng, Benjamin Klein, Yisong Yue, Zhuoning Yuan,
- Abstract要約: コンテンツ保存ビデオ編集のための層拡散フレームワークであるVeraを紹介する。
ビデオ全体を再生する代わりに、Veraは編集層と、ソースビデオと合成するためのアルファマットを生成する。
Veraは、レイヤー化されたトレーニングデータの486Kフレームを使用して、編集品質の競争力を維持しながら、コンテンツ保存において主要なオープンソースビデオ編集モデルを上回っている。
- 参考スコア(独自算出の注目度): 31.27751797441043
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video diffusion models have enabled remarkable progress in video generation and editing. However, content preservation remains a core challenge: existing methods regenerate every pixel and often alter elements that should remain unchanged, such as characters or background scenes. We introduce Vera, a layered diffusion framework for content-preserving video editing. Instead of regenerating the entire video, Vera generates an edit layer along with an alpha matte for compositing with the source video, separating creative editing from content preservation by design. To encourage coherent composition with the source video, we extend the text-to-video DiT into a Mixture-of-Transformers (MoT) architecture, with separate DiTs for each layer that interact through joint self-attention. To support the training of Vera, we further construct a high-quality layered dataset with accurate alpha mattes, diverse scenes and dynamics, and visual effects. Across our quantitative benchmark and human preference study, Vera outperforms leading open-source video editing models in content preservation while remaining competitive in edit quality, using 486K frames of layered training data.
- Abstract(参考訳): ビデオ拡散モデルは、ビデオ生成と編集の著しい進歩を可能にした。
既存のメソッドはすべてのピクセルを再生し、文字や背景シーンなど変更すべき要素を頻繁に変更します。
コンテンツ保存ビデオ編集のための層拡散フレームワークであるVeraを紹介する。
ビデオ全体を再生する代わりに、Veraは、ソースビデオと合成するためのアルファマットと共に編集層を生成し、デザインによってコンテンツ保存から創造的な編集を分離する。
ソースビデオとのコヒーレントな合成を促進するため、テキストからビデオまでのDiTをMixture-of-Transformers (MoT) アーキテクチャに拡張し、各レイヤごとに個別のDiTを結合自己注意を介して対話する。
Veraのトレーニングを支援するために、我々はさらに、正確なアルファマット、多様なシーンとダイナミクス、視覚効果を備えた高品質な階層データセットを構築した。
定量的なベンチマークと人間の嗜好調査を通じて、Veraは486Kフレームのレイヤートレーニングデータを使用して、編集品質の競争力を維持しながら、コンテンツ保存において主要なオープンソースビデオ編集モデルより優れています。
関連論文リスト
- Layer-Aware Video Composition via Split-then-Merge [55.12521724893102]
Split-then-Merge (StM) は、生成ビデオ合成の制御を強化するために設計されたフレームワークである。
StMは、ラベルなしのビデオの大規模なコーパスを、ダイナミックな前景と背景の層に分割し、それらを自己構成して、ダイナミックな被写体が多様なシーンとどのように相互作用するかを学習する。
論文 参考訳(メタデータ) (2025-11-25T19:53:15Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - GenCompositor: Generative Video Compositing with Diffusion Transformer [68.00271033575736]
伝統的なパイプラインは、労働力の集中と専門家の協力を必要とし、生産サイクルが長くなり、高い人的コストがかかる。
本課題は, 対象映像に対して, 前景映像の同一性や動作情報を対話的に注入することである。
実験により,本手法は生成ビデオ合成を効果的に実現し,忠実度と一貫性の既存のソリューションよりも優れることが示された。
論文 参考訳(メタデータ) (2025-09-02T16:10:13Z) - TV-LiVE: Training-Free, Text-Guided Video Editing via Layer Informed Vitality Exploitation [36.81368812919819]
我々は、Layerinformed Vitality Exploitationを通じて、トレーニング不要でテキスト誘導型のビデオ編集フレームワークであるTV-LiVEを紹介する。
生成した出力の品質に大きく影響を及ぼす映像生成モデル内の重要層を実証的に同定する。
対象追加のために,新たに追加されたターゲットプロンプトに対応するマスク領域を抽出するために,顕著な層を特定する。
論文 参考訳(メタデータ) (2025-06-08T16:12:13Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。