論文の概要: Memento: Reconstruct to Remember for Consistent Long Video Generation
- arxiv url: http://arxiv.org/abs/2606.14667v1
- Date: Fri, 12 Jun 2026 17:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:43.014116
- Title: Memento: Reconstruct to Remember for Consistent Long Video Generation
- Title(参考訳): Memento:永続的なビデオ生成のためにリコンストラクトをリコンストラクション
- Authors: Xuan Wei, Longbin Ji, Guan Wang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Qingqi Hong,
- Abstract要約: ロングフォームビデオ生成は、様々なショット、視点、動き、シーン遷移において、連続した被写体を維持する必要がある。
メトンは、被写体保存を明示的なアイデンティティ基盤問題として扱う、被写体再構成誘導フレームワークである。
Metonは、長期的な主題整合性、クロスショットコヒーレンス、視覚的品質において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 33.84564823908538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video generation requires recurring subjects to remain consistent across various shots, viewpoints, motions, and scene transitions. Existing temporal decomposition methods improve scalability by generating videos shot by shot. However, they mainly focus on optimizing plausible next-shot continuations without verifying whether the historical memory preserves identity-critical subject evidence. Consequently, as generation proceeds, recurring subjects may be diluted, overwritten, or forgotten. In this paper, we propose Memento, a subject-reconstruction-guided framework that treats subject preservation as an explicit identity grounding problem, based on the premise that a memory bank faithfully preserving a subject should support reconstructing that subject from memory alone. Specifically, Memento jointly trains autoregressive next-shot generation with memory-based subject reconstruction, recovering target appearances using historical memory and global story captions. To disentangle long-range subject evidence from short-range cues, Memento introduces a dual-query memory mechanism, where one query retrieves identity-relevant memory and the other selects short-context keyframes for coherent continuation. Additionally, a subject-aware cinematic data pipeline provides precise reconstruction supervision via consistent, pronoun-free subject descriptions. Experiments demonstrate that Memento achieves state-of-the-art performance in long-term subject consistency, cross-shot coherence, and visual quality.
- Abstract(参考訳): ロングフォームビデオ生成は、様々なショット、視点、動き、シーン遷移において、連続した被写体を維持する必要がある。
既存の時間分解法は、ショットで撮影したビデオを生成することによりスケーラビリティを向上させる。
しかし、それらは主に、歴史的記憶がアイデンティティクリティカルな主題の証拠を保存しているかどうかを確かめることなく、妥当な次のショット継続を最適化することに焦点を当てている。
その結果、世代が進むにつれて、再発する被写体は希釈され、上書きされ、あるいは忘れられることがある。
本稿では,被写体保存を明示的なアイデンティティ基盤問題として扱い,被写体を忠実に保存するメモリバンクは,その被写体を記憶のみから再構成するのをサポートするべきであるという前提のもとに,被写体保存を明示的なアイデンティティ基盤問題として扱う,被写体再構成誘導フレームワークであるMementoを提案する。
具体的には,メモリをベースとした被写体再構成による自己回帰的次弾生成を共同で訓練し,過去の記憶とグローバルな物語キャプションを用いてターゲットの外観を復元する。
Mementoは、短い範囲の手がかりから長い範囲の主題のエビデンスを切り離すために、デュアルクエリーメモリ機構を導入し、1つのクエリがアイデンティティ関連メモリを検索し、もう1つのクエリがコヒーレント継続のために短コンテキストのキーフレームを選択する。
さらに、被写体対応撮影データパイプラインは、一貫した代名詞なしの主題記述による正確な再構成管理を提供する。
実験により、Mementoは、長期的な主題の整合性、クロスショットコヒーレンス、視覚的品質において最先端のパフォーマンスを達成することが示された。
関連論文リスト
- FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion [59.207505503284715]
FadeMemは、歴史的なKVブロックを固定キャッシュ予算の下で時間階層に整理する。
新しい歴史はきめ細かいエントリとして挿入され、古い隣のエントリは徐々にマージされる。
実験では、既存の有界キャッシュ戦略よりも、被験者の一貫性、背景安定性、時間的コヒーレンスが改善された。
論文 参考訳(メタデータ) (2026-06-09T10:22:18Z) - MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models [56.31411457917676]
本稿では,メモリ構築と検索において,機能的メモリ境界を保存するタイプアウェアメモリフレームワークであるMemGuardを紹介する。
幻覚と長期会話のベンチマーク全体で、MemGuardはメモリの信頼性を最大28.27%向上し、メモリトークンは以前の方法より5.8倍少ない。
論文 参考訳(メタデータ) (2026-05-27T06:04:19Z) - Q-GeoMem: Question-Guided Geometric Memory for Video Spatial Reasoning [53.96129188781529]
ビデオ空間推論のための質問誘導幾何メモリフレームワークを提案する。
カメラ条件の幾何学を 視覚トークンに注入し 2つの相補記憶を維持します
本研究は,評価空間推論モデルにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-05-26T17:26:29Z) - EM-Vid: Training-Free Entity-Centric Memory for Efficient and Consistent Multi-Shot Video Generation [18.052867824594347]
マルチショットビデオ生成には、ショット間で連続的なエンティティの出現を維持する必要がある。
最近の自己回帰手法は、以前生成されたフレームをメモリとして再利用する。
我々は、潜伏パッチのエンティティインデックスバンクという形でエンティティ中心のメモリを提案する。
論文 参考訳(メタデータ) (2026-05-22T13:20:29Z) - EgoMemReason: A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding [89.26501160264199]
EgoMemReasonは、メモリ駆動推論を通じて、1週間のエゴセントリックなビデオ理解を体系的に評価する。
EgoMemReasonには3つのメモリタイプと6つのコア課題に関する500の質問が含まれている。
EgoMemReasonをMLLMとエージェントフレームワークにまたがる17の手法で評価する。
論文 参考訳(メタデータ) (2026-05-11T01:59:59Z) - Memorize When Needed: Decoupled Memory Control for Spatially Consistent Long-Horizon Video Generation [22.26820693283945]
本稿では,メモリコンディショニングと生成を分離する分離されたフレームワークを提案する。
我々は、歴史的観測から正確な空間整合性を学ぶために、軽量で独立したメモリブランチを使用している。
提案手法は,視覚的品質と空間的整合性の両方の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-04-20T13:00:17Z) - VideoMemory: Toward Consistent Video Generation via Memory Integration [28.605816634949814]
VideoMemoryは、Dynamic Memory Bankを通じてナラティブプランニングとビジュアルジェネレーションを統合する。
ダイナミックメモリバンクは、文字、小道具、背景の明示的な視覚的および意味的な記述を格納する。
この検索更新機構は、遠距離ショット間のエンティティの一貫性のある表現を可能にし、コヒーレントなロングフォーム生成をサポートする。
論文 参考訳(メタデータ) (2026-01-07T07:10:32Z) - StoryMem: Multi-shot Long Video Storytelling with Memory [32.97816766878247]
本稿では,ビデオの長めのストーリーテリングを,明示的な視覚記憶を前提とした反復的なショット合成として再構成するパラダイムであるStoryMemを提案する。
提案するフレームワークは、スムーズなショット遷移とカスタマイズされたストーリー生成アプリケーションに自然に対応している。
論文 参考訳(メタデータ) (2025-12-22T16:23:24Z) - Memory in the Age of AI Agents [217.9368190980982]
この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。
我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。
実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
論文 参考訳(メタデータ) (2025-12-15T17:22:34Z) - WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。