論文の概要: Latent Spatial Memory for Video World Models
- arxiv url: http://arxiv.org/abs/2606.09828v1
- Date: Mon, 08 Jun 2026 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.691628
- Title: Latent Spatial Memory for Video World Models
- Title(参考訳): ビデオワールドモデルのための潜時空間記憶
- Authors: Weijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang, Yefei He, Zicheng Duan, Donny Y. Chen, Yuqing Yang, Bohan Zhuang,
- Abstract要約: ビデオワールドモデルのためのエンフラテント空間記憶を導入し、3Dキャッシュでシーン情報を拡散潜時空間に直接保存し、画素空間の再構成を避ける。
実験により、遅延空間メモリは、より高速なエンドツーエンドビデオ生成と、明示的な3Dベースラインに対するメモリフットプリントの削減を実現する。
- 参考スコア(独自算出の注目度): 45.02259712072663
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit point cloud memory constructed in RGB space. This design is both computationally expensive, requiring repeated rendering and VAE encoding, and inherently lossy, as the round trip through pixel space discards rich features of the learned latent representation. In this paper, we introduce \emph{latent spatial memory} for video world models, a persistent 3D cache that stores scene information directly in the diffusion latent space, avoiding pixel-space reconstruction. Building on this, we propose Mirage, a latent-space spatial memory framework that constructs the memory by lifting latent tokens into 3D via depth-guided back-projection and queries it by synthesizing novel views through direct latent-space warping. This unified formulation eliminates both the information loss of pixel-space reconstruction and the computational burden of repeated encoding and rendering. Experiments show that latent spatial memory achieves up to \textbf{10.57}$\times$ faster end-to-end video generation and \textbf{55}$\times$ reduction in memory footprint relative to explicit 3D baselines. Leveraging the geometric prior of the diffusion model, Mirage attains state-of-the-art performance on WorldScore and strong reconstruction quality on RealEstate10K.
- Abstract(参考訳): 生成されたフレーム間で3次元空間一貫性を維持するビデオワールドモデルは、通常、RGB空間で構築された明示的なポイントクラウドメモリに依存している。
この設計はどちらも計算コストが高く、繰り返しレンダリングとVAEエンコーディングが必要であり、また本質的には、ピクセル空間を通るラウンドトリップは学習された潜在表現の豊富な特徴を捨てるため、損失が大きい。
本稿では,拡散潜時空間にシーン情報を直接格納し,画素空間の再構成を避ける3Dキャッシュである,ビデオワールドモデルのための「emph{latent space memory}」を紹介する。
そこで我々は,奥行き誘導バックプロジェクションにより3次元に遅延トークンを持ち上げることでメモリを構成する潜在空間空間記憶フレームワークであるMirageを提案する。
この統一的な定式化は、画素空間再構成の情報損失と、繰り返し符号化および描画の計算負担をなくす。
実験により、潜時空間メモリは、より高速なエンドツーエンドビデオ生成と、明示的な3Dベースラインに対するメモリフットプリントの削減を実現する。
拡散モデルの幾何学的先行性を活用して、MirageはWorldScoreの最先端のパフォーマンスとRealEstate10Kの強力な再構築品質を達成する。
関連論文リスト
- Geometry-Aware Implicit Memory for Video World Models [29.522291951915577]
GIM-Worldは、ビデオワールドモデルのための幾何学的な暗黙記憶フレームワークである。
カメラクエリ可能な幾何ヘッドは、凍結基礎モデルからトレーニング中にメモリに3Dシーン構造を蒸留する。
MINDの実験では、GIM-Worldは明示的メモリベースラインと暗黙的メモリベースラインの両方よりも、長期の幾何学的および視覚的一貫性を保っている。
論文 参考訳(メタデータ) (2026-06-01T16:08:43Z) - Robust Dreamer: Deviation-Aware Latent Gaussian Memory for Action-Controlled AR Video Generation [89.70897512515477]
アクション制御された画像対ビデオ生成は、インタラクティブな世界シミュレーションにおいて有望なパラダイムであり、各制御信号が即時視覚応答を誘発する。
長時間の自己回帰的なロールアウトに対する視覚的忠実さと3D一貫性を維持することは依然として難しい。
既存の3D認識手法は、textitLatent--RGB Cyclingからの情報損失と、textiterror-free仮説によって引き起こされるトレーニング-推論ギャップという2つの障害により、破滅的なドリフトに悩まされることが多い。
textbfRobust Dreamerという,メモリ拡張フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-05-29T05:21:33Z) - I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation [56.33710337846449]
I3DMは、一貫した映像シーン生成のための暗黙的な3D対応メモリ機構である。
われわれのアプローチの核心は3D対応メモリ検索戦略である。
検索した履歴フレームをフル活用するために,3次元メモリインジェクションモジュールを導入する。
論文 参考訳(メタデータ) (2026-03-24T16:45:40Z) - Spatia: Video Generation with Updatable Spatial Memory [60.21619361473996]
Spatiaは空間記憶を意識したビデオ生成フレームワークで、3Dシーンポイントクラウドを永続的な空間記憶として保存する。
Spatiaは、この空間記憶上にコンディションされたビデオクリップを反復的に生成し、視覚SLAMを通じて継続的に更新する。
Spatiaは、明示的なカメラ制御や3D対応のインタラクティブな編集などのアプリケーションを可能にし、スケーラブルでメモリ駆動のビデオ生成のための幾何学的な基盤となるフレームワークを提供する。
論文 参考訳(メタデータ) (2025-12-17T18:59:59Z) - Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft [45.363427511806385]
Memory Forcingは、トレーニングプロトコルとジオメトリインデックス付き空間メモリを組み合わせた学習フレームワークである。
メモリフォーシングは,様々な環境において,長期的空間整合性と生成品質に優れることを示す。
論文 参考訳(メタデータ) (2025-10-03T17:35:16Z) - Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory [72.75478398447396]
我々は,高密度ストリーミング3D再構成を目的としたオンラインフレームワークであるPoint3Rを提案する。
具体的には、現在のシーンの3次元構造に直接関連した空間ポインタメモリを明示的に保持する。
本手法は,訓練コストの低い各種タスクにおいて,競争力や最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-03T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。