論文の概要: World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
- arxiv url: http://arxiv.org/abs/2606.13652v1
- Date: Thu, 11 Jun 2026 17:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.970985
- Title: World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
- Title(参考訳): 世界トラクション:視界を超越したピクセル配向幾何学の創出
- Authors: Hao Zhang, Mohamed El Banani, Jen-Hao Cheng, Paul Zhang, Yi Hua, Ben Mildenhall, Christoph Lassner, Narendra Ahuja, Gengshan Yang,
- Abstract要約: 我々は,3次元の点を観測画素と一致させて予測する生成画素整列幾何表現であるWorld Tracingを紹介した。
それぞれの入力ピクセルに対して、World Tracingは、第1層が可視面を表すカメラ空間の3Dポイントの順序付けられたスタックを予測する。
我々は、この表現を、複数の幾何学層を別個の識別トークンとして扱う世界追跡拡散変換器WT-DiTでインスタンス化する。
- 参考スコア(独自算出の注目度): 34.47550981952829
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image-to-3D methods often trade off faithfulness and completeness: depth estimators are anchored to input pixels but stop at the visible surface, while image-to-3D models generate complete shapes that are often misaligned with the input. We introduce World Tracing, a generative pixel-aligned geometry representation that predicts 3D points aligned with observed pixels while completing geometry beyond the visible surface. For each input pixel, World Tracing predicts an ordered stack of camera-space 3D points, where the first layer represents the visible surface and subsequent layers represent front-to-back intersections with occluded surfaces. We instantiate this representation with a world-tracing diffusion transformer, WT-DiT, which treats multiple geometry layers as separate denoising tokens coupled through factorized and global attention. WT-DiT is trained with pixel-space flow matching and a mixed noise schedule that balances visible-surface reconstruction with occluded-geometry generation. World Tracing achieves strong performance on visible-surface reconstruction and complete geometry generation across object, scene, and dynamic benchmarks, outperforming both depth predictors and image-to-3D generators. It also preserves 2D-to-3D correspondence, enabling text-driven 3D scene editing, geometry-conditioned novel-view video synthesis, and training-free integration with textured-mesh generators.
- Abstract(参考訳): 深度推定器は入力ピクセルに固定されているが、可視表面で停止する一方、画像から3Dモデルは入力と不一致の完全な形状を生成する。
本稿では,3次元点と観測画素との整合性を予測し,視界を超えて幾何学を完遂する,生成的画素整列幾何表現であるWorld Tracingを紹介する。
入力画素ごとに、World Tracingはカメラ空間の3Dポイントの順序付けられたスタックを予測する。
我々はこの表現をWT-DiT (World-tracing diffusion transformer) を用いてインスタンス化する。
WT-DiTは画素空間のフローマッチングと混合ノイズスケジュールで訓練され、視界の再構成と閉鎖幾何生成のバランスをとる。
World Tracingは、オブジェクト、シーン、ダイナミックベンチマークをまたいだ視覚表面の再構築と完全なジオメトリ生成において強力なパフォーマンスを実現し、深度予測器と画像から3Dジェネレータの両方を上回っている。
また、2D-to-3D対応を保ち、テキスト駆動の3Dシーン編集、幾何条件のノベルビュービデオ合成、テクスチャ化されたメッシュジェネレータとのトレーニング不要の統合を可能にする。
関連論文リスト
- IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation [76.36174247570716]
ポーズレス多視点画像から連続的かつ一貫性のある幾何を暗黙的にモデル化するインプリシトビジュアル幾何変換器IVGTを提案する。
IVGTは標準座標系で連続的なニューラルネットワークシーン表現を学習し、任意の3D位置での連続的な空間クエリをサポートする。
連続的かつコヒーレントな表面形状の直接抽出を可能にし、任意の視点からRGB画像、深度マップ、表面正規写像のレンダリングを可能にする。
論文 参考訳(メタデータ) (2026-05-15T17:59:57Z) - Interact3D: Compositional 3D Generation of Interactive Objects [31.12099147294145]
本稿では,3次元合成オブジェクト間の相互作用を物理的に妥当に生成する新しいフレームワークを提案する。
当社のアプローチは、まず先進的な先進的な先進的手法を活用して、高品質な個人資産をキュレートする。
これらの資産を物理的に構成するために、ロバストな2段階合成パイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-17T03:21:06Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。