論文の概要: Sat2City v2: Native 3D City Asset Generation from a Single Satellite Image
- arxiv url: http://arxiv.org/abs/2606.24138v1
- Date: Tue, 23 Jun 2026 04:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.765102
- Title: Sat2City v2: Native 3D City Asset Generation from a Single Satellite Image
- Title(参考訳): Sat2City v2: 1つの衛星画像から3Dシティのネイティブアセット生成
- Authors: Tongyan Hua, Dongli Wu, Jinjing Zhu, Yinrui Ren, Zhongcheng Hong, Ying-Cong Chen, Hui Xiong, Wufan Zhao,
- Abstract要約: Sat2City v2は、単一の衛星画像から都市資産を明示的な3Dレンダリングするフレームワークである。
Sat2City v2ベンチマークで最高のパフォーマンスを実現するフレームワークを構築します。
全体として、私たちのタスクは3Dレンダリングを、私たちの知識を最大限に活用するために、明示的なテクスチャ化されたメッシュアセットに達成します。
- 参考スコア(独自算出の注目度): 39.47225879331284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating explicit 3D city assets from a single satellite image is important for digital twins, urban simulation, and geospatial intelligence. Unlike satellite-to-street-view synthesis, the task requires a reusable textured mesh with plausible geometry and controllable appearance rather than a 3D proxy optimized only for rendering a small set of images or videos. The ICCV Sat2City framework made a first step by conditioning cascaded sparse-voxel latent diffusion on satellite-derived height maps, but its appearance was random, its training data were synthetic, and its task-specific VAE did not scale well to noisy real-world reconstructions. We present Sat2City v2, a journal extension that adapts a pretrained native structured-latent 3D foundation model to weakly aligned satellite images and textured meshes. We build a real-world dataset with 16,241 satellite-mesh pairs across 24 regions in 9 cities. Instead of learning a 3D representation from noisy city meshes, Sat2City v2 encodes each mesh into a pretrained native 3D latent space, fine-tunes a satellite-conditioned geometry flow, and uses the decoded shape to anchor satellite-conditioned texturing. This retains Sat2City's geometry-to-appearance cascade while enabling appearance-controllable generation from the satellite input. Experiments on metric-scale DSM reconstruction and generative city-asset benchmarks for geometry and appearance show that Sat2City v2 achieves the best overall performance among evaluated baselines. Overall, Sat2City v2 advances satellite-to-city generation from rendering-oriented 3D proxies to explicit textured mesh assets, supported by, to the best of our knowledge, the first documented satellite-mesh paired dataset collected from matched geographic crops for this asset-level task. Project page: https://ai4city-hkust.github.io/Sat2City-v2/
- Abstract(参考訳): 単一の衛星画像から明示的な3D都市資産を生成することは、デジタル双生児、都市シミュレーション、地理空間知能にとって重要である。
衛星間ストリートビュー合成とは異なり、このタスクは、小さな画像やビデオのレンダリングだけに最適化された3Dプロキシではなく、可視形状と制御可能な外観を備えた再利用可能なテクスチャメッシュを必要とする。
ICCV Sat2Cityフレームワークは、衛星高度マップ上でカスケードされたスパース・ボクセルの潜伏拡散を条件付けることで第一歩を踏み出したが、その外観はランダムであり、そのトレーニングデータは合成され、タスク固有のVAEは、ノイズの多い現実世界の再構築にはうまくスケールしなかった。
本稿では,Sat2City v2について述べる。Sat2City v2,Sat2City v2,Sat2City,Sat2City,Sat2City,Sat2City,Sat2City,Sat2City,Sat2City,Sat2City,Sat2City,Sat2City,Sat2Cit y,Sat2C,Sat2C,Sat2C,Sat2C,Sat2の3Dの3Dの3D基盤モデルについて述べる。
9都市24リージョンに16,241台の衛星メッシュペアで実世界のデータセットを構築します。
ノイズの多い都市メッシュから3D表現を学ぶ代わりに、Sat2City v2は、各メッシュを事前訓練されたネイティブな3D潜伏空間にエンコードし、衛星条件の幾何学的流れを微調整し、デコードされた形状を使って衛星条件のテクスチャを固定する。
これはサット2シティの幾何学から外観へのカスケードを保持し、衛星入力から外観制御可能な生成を可能にする。
Sat2City v2が評価ベースラインの中で最高の総合性能を達成していることを示す。
全体として、Sat2City v2はレンダリング指向の3Dプロキシから明示的なテクスチャメッシュアセットまで、私たちの知る限り、このアセットレベルのタスクのために、マッチングされた地理的作物から収集された最初の文書化された衛星メッシュペアデータセットまで、衛星から都市への生成を進めています。
プロジェクトページ:https://ai4city-hkust.github.io/Sat2City-v2/
関連論文リスト
- Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence [78.1406635199656]
Holi-Spatialは、人間の介入なしに生のビデオ入力から構築された、初めて完全に自動化され、大規模で、空間対応のマルチモーダルデータセットである。
Holi-Spatial-4Mは、12K最適化された3DGSシーン、1.3Mの2Dマスク、320Kの3Dバウンディングボックス、320Kのインスタンスキャプション、1.2Mの3Dグラウンドインスタンス、1.2Mの空間QAペアを含む、最初の大規模で高品質な3Dセマンティックデータセットである。
論文 参考訳(メタデータ) (2026-03-08T14:49:20Z) - From Orbit to Ground: Generative City Photogrammetry from Extreme Off-Nadir Satellite Images [31.421617684580834]
衛星画像からの都市規模の3D再構成は、極端視点外挿の課題を示す。
これにより、画像ソースから90ドル近い視点ギャップを推測する必要がある。
都市構造と衛星入力に適した2つの設計選択を提案する。
論文 参考訳(メタデータ) (2025-12-08T13:01:12Z) - Sat2RealCity: Geometry-Aware and Appearance-Controllable 3D Urban Generation from Satellite Imagery [12.88788681361607]
Sat2RealCity(サット2RealCity)は、現実世界の衛星画像から3D都市を生成するための幾何学的・外観制御可能なフレームワークである。
空間トポロジからビルディングインスタンスへの解釈可能な幾何学的生成を実現するためのOSMベースの空間先行戦略を導入する。
MLLMを用いた意味誘導型生成パイプラインを構築し,意味解釈と幾何学的再構成を行う。
論文 参考訳(メタデータ) (2025-11-14T16:42:03Z) - CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation [55.74642848285121]
フリーハンドスケッチと衛星画像から3D屋外セマンティックシーンを生成するための,最初の大規模ベンチマークであるSketchSem3Dを紹介する。
また,シーン生成における空間コヒーレンスを大幅に向上させるCyinder Mamba Diffusion (CymbaDiff)を提案する。
CymbaDiffは、優れたセマンティック一貫性、空間リアリズム、およびデータセット間の一般化を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:47:00Z) - Sat2City: 3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion [18.943643720564996]
Sat2Cityは、スパースボクセルグリッドの表現能力を潜在拡散モデルと相乗化する新しいフレームワークである。
衛星視高マップと組み合わせた大規模3D都市を合成したデータセットを提案する。
本フレームワークは, 衛星画像から詳細な3次元構造を生成し, 既存の都市モデルに比べ, 忠実度に優れていた。
論文 参考訳(メタデータ) (2025-07-06T14:30:08Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。