論文の概要: 3DCarGen: Scalable 3D Car Generation via 3D-consistent Multi-view Synthesis
- arxiv url: http://arxiv.org/abs/2606.24257v1
- Date: Tue, 23 Jun 2026 07:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.830184
- Title: 3DCarGen: Scalable 3D Car Generation via 3D-consistent Multi-view Synthesis
- Title(参考訳): 3DCarGen:3D一貫性多視点合成によるスケーラブルな3Dカージェネレーション
- Authors: Hongli Xiao, Youjian Zhang, Yaohui Jin, Xiaoguang Ren, Wenjing Yang, Long Lan,
- Abstract要約: 3DCarGenは、現実世界の画像のためのスケーラブルなシングルビュー3Dカージェネレーションフレームワークである。
入力として1つの画像が与えられた場合、我々はまず、固定された視点から画像の集合を合成する。
これらの画像はフィードフォワード再構成モデルに入力され、粗い3D表現となる。
- 参考スコア(独自算出の注目度): 35.43901502343984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality 3D vehicle assets are essential for autonomous driving simulation. Although multi-view diffusion-based paradigms enable controllable single-image reconstruction, they typically produce limited viewpoints and exhibit cross-view geometric inconsistencies, thereby reducing reconstruction fidelity in real-world scenarios. In this work, we introduce 3DCarGen, a scalable single-view 3D car generation framework designed for real-world images by synthesizing an arbitrary number of 3D-consistent multi-view images. Specifically, given a single image as input, we first synthesize a set of images from fixed viewpoints. These images are then fed into a feed-forward reconstruction model, resulting in a coarse 3D representation based on 3D Gaussian Splatting. Conditioned on this explicit 3D prior, our multi-view diffusion model generates 3D-consistent images from arbitrary camera viewpoints. We further extend a fast mesh reconstruction algorithm by incorporating color-normal joint optimization to recover detailed and coherent 3D vehicle models from the synthesized dense views. Extensive experiments on synthetic and real-world datasets demonstrate that our approach achieves robust geometric consistency and reconstruction fidelity compared to existing methods. Code and models will be released.
- Abstract(参考訳): 高品質な3D自動車資産は自動運転シミュレーションに不可欠である。
多視点拡散に基づくパラダイムは、制御可能な単一イメージの再構成を可能にするが、通常は限られた視点を生成し、横断的な幾何学的不整合を示し、現実世界のシナリオにおける再構成の忠実さを低減する。
本研究では,任意の数の3D一貫性を持つマルチビュー画像の合成により,実世界の画像用に設計されたスケーラブルなシングルビュー3Dカージェネレーションフレームワークである3DCarGenを紹介する。
具体的には、入力として1つの画像が与えられた場合、まず、固定された視点から画像の集合を合成する。
これらの画像はフィードフォワード再構成モデルに入力され、3Dガウススプラッティングに基づく粗い3D表現となる。
この明示的な3D前処理を前提とした多視点拡散モデルでは、任意のカメラ視点から3D一貫性のある画像を生成する。
合成高密度ビューから詳細な3次元車両モデルとコヒーレントな3次元車両モデルを復元するために,カラー正規結合最適化を導入することにより,高速メッシュ再構築アルゴリズムをさらに拡張する。
合成および実世界のデータセットに関する大規模な実験により、我々の手法は既存の手法と比較して頑健な幾何的整合性と復元忠実性を達成することを示した。
コードとモデルはリリースされる。
関連論文リスト
- Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors [61.34273238077091]
本稿では,物体の単一画像からオービタルビデオを生成する新しい手法を提案する。
本手法は,最先端の手法と比較して,視覚的品質,形状リアリズム,多視点整合性を実現している。
論文 参考訳(メタデータ) (2026-04-14T05:35:46Z) - ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving [20.935790354765604]
画像拡散モデルに基づく多視点画像拡張フレームワークであるViewMorpher3Dを紹介する。
シングルビューのアプローチとは異なり、ViewMorpher3Dはカメラのポーズに条件付けされた一連のレンダリングビュー、幾何学的先行3D、時間的に隣接または空間的に重複する参照ビューを共同で処理する。
我々のフレームワークは、様々なカメラとフレキシブルな参照/ターゲットビュー構成に対応しており、多様なセンサー設定に適応できる。
論文 参考訳(メタデータ) (2026-01-12T13:44:14Z) - MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。
計算複雑性を低減できる多層メモリ機構でモデルを拡張します。
このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文 参考訳(メタデータ) (2025-03-03T15:36:07Z) - Refine3DNet: Scaling Precision in 3D Object Reconstruction from Multi-View RGB Images using Attention [2.037112541541094]
本稿では,自己認識機構を備えた視覚的自動エンコーダと3Dリファインダネットワークを備えたハイブリッド戦略を提案する。
提案手法はJTSOと組み合わせて, 単一・多視点3次元再構成における最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-12-01T08:53:39Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。