論文の概要: PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory
- arxiv url: http://arxiv.org/abs/2606.16449v2
- Date: Tue, 16 Jun 2026 02:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.827227
- Title: PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory
- Title(参考訳): PermaVid: アンタングル付きコンテキストメモリによる一貫したビデオ生成
- Authors: Shuai Yang, Bingjie Gao, Ziwei Liu, Jiaqi Wang, Dahua Lin, Tong Wu,
- Abstract要約: PermaVidは、空間コンテキストを意味的な外観と幾何学的構造に分解するマルチモーダルなコンテキストメモリ上に構築された新しいフレームワークである。
本手法は,編集後の長期的セマンティクスと構造的整合性を強く維持し,最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 80.58558679163197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistent video generation under editing operations requires persistence: when edits modify scene appearance or layout, subsequent generations should remain coherent across time and viewpoints. However, existing memory designs struggle to maintain long-term consistency after such modifications, as stored contexts may become outdated or invalid. To address this, we propose PermaVid, a novel framework built upon a multi-modal context memory that disentangles spatial context into semantic appearance and geometric structure, together with an edit-aware memory update and retrieval strategy that keeps memory evolution aligned with subsequent observations. Specifically, we develop two complementary memory banks: an RGB context memory that captures appearance-aware observations while implicitly encoding geometry, and a depth context memory that preserves geometry-only structure disentangled from semantics. Building on this design, we introduce a memory-guided video generation model that performs multi-modal feature fusion under reference conditions drawn from mixed-modality memory contexts. Experiments demonstrate that our method maintains strong long-term semantic and structural consistency after edits, significantly outperforming state-of-the-art methods.
- Abstract(参考訳): 編集作業中の一貫性のあるビデオ生成には永続性が必要であり、編集がシーンの外観やレイアウトを変更すると、後続世代は時間と視点で一貫性を保つ必要がある。
しかし、保存されたコンテキストが時代遅れになるか、無効になる可能性があるため、既存のメモリ設計では、このような変更後の長期的な一貫性を維持するのに苦労している。
そこで本研究では,空間的コンテキストを意味的外観と幾何学的構造に分解するマルチモーダルなコンテキストメモリ上に構築された新しいフレームワークPermaVidを提案する。
具体的には、幾何を暗黙的に符号化しながら外観認識された観測をキャプチャするRGBコンテキスト記憶と、意味論から切り離された幾何学のみの構造を保存する深さコンテキスト記憶という2つの補完記憶バンクを開発する。
この設計に基づいて、混合モダリティメモリコンテキストから引き出された参照条件下でマルチモーダル特徴融合を行うメモリ誘導ビデオ生成モデルを導入する。
提案手法は,編集後の長期的意味と構造的整合性を強く維持し,最先端の手法よりも優れていることを示す。
関連論文リスト
- Closed-Loop Triplet Synergistic Generation for Long-Form Video [61.88597038104749]
CoSyTriGenは、クローズドループビジュアル-テキスト-メモリのシナジープロセスとしてマルチショット長ビデオ生成を定式化するエージェントフレームワークである。
この三重項に対して視覚言語モデルに基づくアナライザが原因となり、2つの経路に沿ってプロンプトとメモリの両方を更新する。
StoryBenchベンチマークの実験では、代表法よりもクロスショット一貫性、即効性、撮影連続性を大幅に改善した。
論文 参考訳(メタデータ) (2026-06-15T03:56:43Z) - Geometry-Aware Implicit Memory for Video World Models [29.522291951915577]
GIM-Worldは、ビデオワールドモデルのための幾何学的な暗黙記憶フレームワークである。
カメラクエリ可能な幾何ヘッドは、凍結基礎モデルからトレーニング中にメモリに3Dシーン構造を蒸留する。
MINDの実験では、GIM-Worldは明示的メモリベースラインと暗黙的メモリベースラインの両方よりも、長期の幾何学的および視覚的一貫性を保っている。
論文 参考訳(メタデータ) (2026-06-01T16:08:43Z) - Q-GeoMem: Question-Guided Geometric Memory for Video Spatial Reasoning [53.96129188781529]
ビデオ空間推論のための質問誘導幾何メモリフレームワークを提案する。
カメラ条件の幾何学を 視覚トークンに注入し 2つの相補記憶を維持します
本研究は,評価空間推論モデルにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-05-26T17:26:29Z) - EM-Vid: Training-Free Entity-Centric Memory for Efficient and Consistent Multi-Shot Video Generation [18.052867824594347]
マルチショットビデオ生成には、ショット間で連続的なエンティティの出現を維持する必要がある。
最近の自己回帰手法は、以前生成されたフレームをメモリとして再利用する。
我々は、潜伏パッチのエンティティインデックスバンクという形でエンティティ中心のメモリを提案する。
論文 参考訳(メタデータ) (2026-05-22T13:20:29Z) - Ray-Aware Pointer Memory with Adaptive Updates for Streaming 3D Reconstruction [19.132257919770947]
連続画像ストリームからの3次元再構成には、正確な幾何集約と安定したメモリ管理が必要である。
空間的位置と視線方向の両方を明示的にモデル化した3次元再構成のためのレイアウェア・ポインターメモリを提案する。
われわれのアプローチは、画像ストリームからのスケーラブルでドリフトに耐性のあるオンライン3D再構成のための、原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2026-05-07T06:42:11Z) - VideoMemory: Toward Consistent Video Generation via Memory Integration [28.605816634949814]
VideoMemoryは、Dynamic Memory Bankを通じてナラティブプランニングとビジュアルジェネレーションを統合する。
ダイナミックメモリバンクは、文字、小道具、背景の明示的な視覚的および意味的な記述を格納する。
この検索更新機構は、遠距離ショット間のエンティティの一貫性のある表現を可能にし、コヒーレントなロングフォーム生成をサポートする。
論文 参考訳(メタデータ) (2026-01-07T07:10:32Z) - Spatia: Video Generation with Updatable Spatial Memory [60.21619361473996]
Spatiaは空間記憶を意識したビデオ生成フレームワークで、3Dシーンポイントクラウドを永続的な空間記憶として保存する。
Spatiaは、この空間記憶上にコンディションされたビデオクリップを反復的に生成し、視覚SLAMを通じて継続的に更新する。
Spatiaは、明示的なカメラ制御や3D対応のインタラクティブな編集などのアプリケーションを可能にし、スケーラブルでメモリ駆動のビデオ生成のための幾何学的な基盤となるフレームワークを提供する。
論文 参考訳(メタデータ) (2025-12-17T18:59:59Z) - VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。