論文の概要: MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold
- arxiv url: http://arxiv.org/abs/2606.13376v2
- Date: Wed, 17 Jun 2026 16:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.098225
- Title: MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold
- Title(参考訳): MoVerse:パノラマガウススキャッフルによるリアルタイムビデオワールドモデリング
- Authors: Yang Zhou, Ziheng Wang, Yuqin Lu, Haofeng Liu, Jun Liang, Shengfeng He, Jing Li,
- Abstract要約: 我々は,単一の狭視野画像からインタラクティブにナビゲート可能なシーンを生成するリアルタイムビデオワールドモデルであるMoVerseを紹介する。
MoVerseはNVIDIA4090 GPUで8FPSでリアルタイムのシーンローミングをサポートする。
- 参考スコア(独自算出の注目度): 45.96225433489696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MoVerse, a real-time video world model that creates an interactively navigable scene from a single narrow-field-of-view image. This setting is challenging because the input observes only a small fraction of the environment, while interactive roaming requires a complete surrounding world, persistent geometry, controllable camera motion, and temporally coherent high-fidelity observations. MoVerse addresses this problem by separating world construction from observation rendering. It first expands the input into a gravity-aligned 360$^\circ$ panorama with topology-aware diffusion, closing the missing field of view before 3D reasoning. It then lifts the panorama into a persistent 3D Gaussian scaffold using panoramic geometry-aware residual prediction, yielding a dense and directly renderable spatial memory. Finally, a Gaussian-conditioned video renderer translates scaffold renderings along user-specified camera trajectories into photorealistic video. To make this renderer practical for interaction, we train a bidirectional diffusion teacher for high-quality conditional rendering and distill it into a causal autoregressive student for bounded-latency streaming. This design combines the controllability and long-range consistency of explicit 3D representations with the perceptual quality of generative video models. MoVerse supports real-time scene roaming at 8~FPS on a single NVIDIA RTX~4090 GPU, demonstrating a practical path toward single-image world creation with interactive video output.
- Abstract(参考訳): 我々は,単一の狭視野画像からインタラクティブにナビゲート可能なシーンを生成するリアルタイムビデオワールドモデルであるMoVerseを紹介する。
この設定は、入力が環境のごく一部しか観測しないのに対して、インタラクティブなローミングには、周囲の完全な世界、永続的な幾何学、制御可能なカメラモーション、時間的コヒーレントな高忠実度観測が必要であるため、難しい。
MoVerseは、世界構築と観測レンダリングを分離することでこの問題に対処する。
まず入力を、トポロジーを意識した拡散を伴う重力配向の360$^\circ$パノラマに拡張し、3D推論の前に行方不明の視野を閉じる。
その後、パノラマはパノラマ幾何学を意識した残留予測を用いて3Dガウスの足場に持ち上げられ、密度が高く直接レンダリング可能な空間記憶が得られる。
最後に、ガウス条件付きビデオレンダラーは、ユーザーが指定したカメラ軌跡に沿った足場レンダリングをフォトリアリスティックビデオに変換する。
このレンダラーを対話に活用するために、高品質な条件付きレンダリングのための双方向拡散教師を訓練し、有界レイテンシストリーミングのための因果自己回帰学習者に蒸留する。
この設計は、明示的な3D表現の制御性と長距離一貫性と、生成ビデオモデルの知覚的品質を組み合わせる。
MoVerseは1つのNVIDIA RTX~4090 GPUで8~FPSのリアルタイムシーンローミングをサポートし、インタラクティブなビデオ出力でシングルイメージの世界創造への実践的な道を実証している。
関連論文リスト
- Rein3D: Reinforced 3D Indoor Scene Generation with Panoramic Video Diffusion Models [38.45163624089566]
Rein3Dは、完全な360度屋内環境を再構築するフレームワークである。
我々は不完全なパノラマ動画のレンダリングに放射状探査戦略を採用している。
これらの配列はパノラマビデオ・ビデオ拡散モデルにより復元され、高忠実度幾何やテクスチャを合成するためにビデオ超解像によりさらに拡張される。
論文 参考訳(メタデータ) (2026-04-12T10:55:14Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [48.16064304951891]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - Seeing World Dynamics in a Nutshell [132.79736435144403]
NutWorldはモノクロ動画をダイナミックな3D表現に変換するフレームワークである。
我々は,NutWorldがリアルタイムにダウンストリームアプリケーションを実現しつつ,高忠実度ビデオ再構成品質を実現することを実証した。
論文 参考訳(メタデータ) (2025-02-05T18:59:52Z) - Persistent Nature: A Generative Model of Unbounded 3D Worlds [74.51149070418002]
任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。
この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。
提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
論文 参考訳(メタデータ) (2023-03-23T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。