論文の概要: 3D-CoS: A New 3D Reconstruction Paradigm Based on VLM Code Synthesis
- arxiv url: http://arxiv.org/abs/2606.10478v1
- Date: Tue, 09 Jun 2026 06:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.357052
- Title: 3D-CoS: A New 3D Reconstruction Paradigm Based on VLM Code Synthesis
- Title(参考訳): 3D-CoS: VLM符号合成に基づく新しい3次元再構成パラダイム
- Authors: Yuhao Wang, Puyi Wang, Linjie Li, Zhengyuan Yang, Kevin Qinghong Lin, Yu Cheng,
- Abstract要約: 本稿では,3次元アセットを実行可能なコードとして構築する新しい3次元再構成パラダイムを提案し,体系的に評価する。
本研究は,3次元表現としてのコードにより,強い制御性と局所性が得られ,編集精度が向上し,未編集領域の保存性が向上することを示す。
- 参考スコア(独自算出の注目度): 69.23609431485401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most recent 3D reconstruction and editing systems operate on implicit and explicit representations such as NeRF, point clouds, or meshes. While these representations enable high-fidelity rendering, they are fundamentally low-level and hard to control programmatically. In contrast, we propose and systematically evaluate a new 3D reconstruction paradigm, 3D Code Synthesis (3D-CoS), where 3D assets are constructed as executable Blender code, a programmatic and interpretable medium. To assess how well current VLMs can use code to represent 3D objects, we evaluate representative open-source and closed-source VLMs in code-based reconstruction under a unified protocol. We further introduce a suite of structured code-synthesis workflows, including blueprint-based planning, Retrieval-Augmented Generation (RAG) over Blender API documentation, few-shot geometric demonstrations, and a component-level Agent workflow for part-wise code generation. To demonstrate the unique advantages of this representation, we further evaluate localized text-driven modifications and compare our code-based edits with a point-cloud-based 3D editing baseline. Our study shows that code as a 3D representation offers strong controllability and locality, yielding stronger edit fidelity and better preservation of unedited regions in our targeted editing evaluation. Our work also analyzes the potential of this paradigm, delineates the current capability frontier of VLMs for programmatic 3D modeling, and highlights code synthesis as a promising direction for editable 3D reconstruction.
- Abstract(参考訳): 最近の3D再構成と編集システムは、NeRF、ポイントクラウド、メッシュなどの暗黙的かつ明示的な表現で動作する。
これらの表現は高忠実なレンダリングを可能にするが、基本的に低レベルであり、プログラム的に制御することが難しい。
対照的に、3Dコード合成(3D-CoS)という新しい3D再構成パラダイムを提案し,体系的に評価し,プログラム的かつ解釈可能な媒体であるブレンダーコードとして3Dアセットを構築する。
3Dオブジェクトの表現に,現在のVLMがどの程度の精度で利用できるかを評価するため,統一されたプロトコル下でのコードベース再構築において,オープンソースおよびクローズドソースのVLMを代表的に評価する。
さらに、ブループリントベースのプランニング、Blender APIドキュメント上のRetrieval-Augmented Generation(RAG)、数ショットの幾何学的デモ、部分的なコード生成のためのコンポーネントレベルのAgentワークフローなど、構造化されたコード合成ワークフローも導入しています。
この表現の独特な利点を実証するため、局所的なテキスト駆動による修正を更に評価し、コードベースの編集をポイントクラウドベースの3D編集ベースラインと比較した。
本研究は, 3次元表現としてのコードにより, 強い制御性と局所性が得られ, 編集精度が向上し, 未編集領域の保存性が向上することを示す。
このパラダイムの可能性を分析し、プログラム型3次元モデリングのためのVLMの現在の機能フロンティアを概説し、編集可能な3次元再構成のための有望な方向としてコード合成を強調する。
関連論文リスト
- 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code [25.904997126319547]
3DCodeBenchは、3Dモデリングソフトウェアにおいて、手続き型3D生成のための視覚言語モデル(VLM)エージェントを評価するための体系的なベンチマークである。
3DCodeArenaは、生成された3D出力に対して、ペアワイズな人間の好みに基づくランキングプラットフォームです。
論文 参考訳(メタデータ) (2026-05-31T06:59:49Z) - Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis [12.68633443613779]
構造化実行ハーネスを備えたMLLMベースのエージェントフレームワークであるCode-as-Roomを提案する。
トップダウンのルームイメージが与えられた場合、フレームワークは参照画像を解析してシーン要素とその空間関係を抽出する。
クロスステージメモリモジュールは、既存のエージェントベースのフレームワーク固有のコンテキストを緩和するために、全期間にわたって維持される。
論文 参考訳(メタデータ) (2026-05-18T14:18:36Z) - AREA3D: Active Reconstruction Agent with Unified Feed-Forward 3D Perception and Vision-Language Guidance [36.125573065910594]
アクティブな3D再構成により、エージェントは視点を自律的に選択し、正確で完全なシーン形状を得ることができる。
本研究では,フィードフォワード3次元再構成モデルと視覚言語指導を利用したアクティブリコンストラクションエージェントAREA3Dを提案する。
本フレームワークは、フィードフォワード再構成器からビュー不確実性モデリングを分離し、高価なオンライン最適化を伴わずに正確な不確実性推定を可能にする。
論文 参考訳(メタデータ) (2025-11-28T06:17:02Z) - EA3D: Online Open-World 3D Object Extraction from Streaming Videos [55.48835711373918]
オープンワールド3Dオブジェクト抽出のための統合オンラインフレームワークであるExtractAnything3D(EA3D)を提案する。
ストリーミングビデオが与えられると、EA3Dは視覚言語と2D視覚基盤エンコーダを使用して各フレームを動的に解釈し、オブジェクトレベルの知識を抽出する。
リカレントな共同最適化モジュールは、モデルの関心領域への注意を向け、幾何学的再構成と意味的理解の両面を同時に強化する。
論文 参考訳(メタデータ) (2025-10-29T03:56:41Z) - Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey [171.72616707259306]
3D再構成とビュー合成は、拡張現実(AR)、仮想現実(VR)、デジタルツインといった没入型技術における基礎的な問題である。
深層学習によるフィードフォワードアプローチの最近の進歩は、高速で一般化可能な3次元再構成とビュー合成を可能にして、この分野に革命をもたらした。
論文 参考訳(メタデータ) (2025-07-19T06:13:25Z) - TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。
TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文 参考訳(メタデータ) (2024-12-22T08:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。