論文の概要: FLUX3D: High-Fidelity 3D Gaussian Generation with Diffusion-Aligned Sparse Representation
- arxiv url: http://arxiv.org/abs/2606.24874v1
- Date: Tue, 23 Jun 2026 17:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.135758
- Title: FLUX3D: High-Fidelity 3D Gaussian Generation with Diffusion-Aligned Sparse Representation
- Title(参考訳): FLUX3D:拡散適応スパース表現を用いた高忠実な3次元ガウス生成
- Authors: Haorui Ji, Weizhe Liu, Hongdong Li, Hengkai Guo,
- Abstract要約: 本稿では,画像から3DGSまでのスケーラブルなフレームワークを提案し,生成時の表現学習と相互モーダルアライメントを向上する。
FLUX3Dは外観の忠実さを大幅に改善し、高品質な3DGSの資産を生み出すのに最先端(SOTA)の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 48.928051741750124
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Sparse voxel representation has emerged as a scalable foundation for image-to-3D Gaussian Splatting (3DGS) generation, yet current methods struggle to preserve high-frequency visual details of input images due to two structural bottlenecks. First, they adopt discriminative 2D features optimized for semantic abstraction to construct sparse voxel latents, which suppress reconstructive cues and induce a representation bottleneck. Second, in the generation stage, standard diffusion transformers lack effective mechanisms to align dense 2D image tokens with sparse 3D voxel latents, resulting in a cross-modal correspondence bottleneck. To address these issues, we propose FLUX3D, a scalable image-to-3DGS framework that boosts both representation learning and cross-modal alignment during generation. We first revisit 2D feature selection for sparse-voxel-based 3D representation learning, propose Diffusion-Aligned Structured Latents (DA-SLAT) and couple it with a decoder-only architecture to improve 3DGS reconstruction fidelity. We also design a sparse-structure-aware diffusion framework, which integrates the Sparse-structure Multimodal Diffusion Transformer (SMDiT) and Modal-Aware Rotary Positional Embedding (MARoPE) to achieve geometry-agnostic 2D-3D alignment. Extensive benchmark experiments demonstrate that FLUX3D yields substantial improvements in appearance fidelity and significantly outperforms all state-of-the-art (SOTA) methods in generating high-quality 3DGS assets.
- Abstract(参考訳): スパースボクセル表現は画像から3Dガウススプラッティング(3DGS)生成のためのスケーラブルな基盤として登場したが、現在の手法では2つの構造的ボトルネックのために入力画像の高周波視覚的詳細を保存するのに苦労している。
まず、セマンティック抽象化に最適化された識別的2D特徴を用いて、スパースボクセル潜伏剤を構築し、再構成的キューを抑え、表現ボトルネックを誘導する。
第二に, 標準拡散トランスフォーマーは, 密度の高い2次元画像トークンとスパースな3次元ボクセルラプタントを整列させる効果的な機構を欠いているため, 相互対応ボトルネックが生じる。
これらの問題に対処するため,FLUX3Dを提案する。FLUX3Dは画像から3DGSまでのスケーラブルなフレームワークで,生成時の表現学習と相互モーダルアライメントを促進できる。
我々はまず,スパースボクセルに基づく3次元表現学習のための2次元特徴選択を再検討し,拡散アライメント型構造遅延器(DA-SLAT)を提案し,デコーダのみのアーキテクチャと組み合わせて3DGS再構成精度を向上させる。
また,Sparse-structure Multimodal Diffusion Transformer (SMDiT) と Modal-Aware Rotary Positional Embedding (MARoPE) を統合し,形状に依存しない2D-3Dアライメントを実現するスパース構造対応拡散フレームワークを設計する。
広範囲なベンチマーク実験により、FLUX3Dは外観の忠実度を大幅に向上し、高品質な3DGS資産を生成する上で、すべての最先端(SOTA)手法を著しく上回っていることが示されている。
関連論文リスト
- TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment [58.46706158310462]
TIGaussian は 3D Gaussian Splatting (3DGS) 特性を利用して、相互モダリティアライメントを強化する。
我々のマルチブランチ3DGSトークン化器は、3DGS構造の固有の性質をコンパクトな潜在表現に分解する。
テキスト3D投影モジュールは、テキスト3Dアライメントを改善するために、3D機能をテキスト埋め込みスペースに適応的にマッピングする。
論文 参考訳(メタデータ) (2026-01-27T06:30:32Z) - Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。