論文の概要: P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning
- arxiv url: http://arxiv.org/abs/2606.11152v2
- Date: Wed, 10 Jun 2026 16:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.412107
- Title: P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning
- Title(参考訳): P3D-Bench:パラメトリック3次元生成と構造推論のためのベンチマークMLLM
- Authors: Yikang Yang, Zhanpeng Hu, Youtian Lin, Mengqi Zhou, Jingxi Xu, Feihu Zhang, Jiaheng Liu, Yao Yao,
- Abstract要約: パラメトリックな3D生成のためのベンチマークであるP3D-Benchを紹介する。
統一されたプロトコルの下でP3D-Benchは3つのタスクファミリ(Text-to-3D, Image-to-3D, Assembly-3D)をカバーする
テキストケース400件,画像ケース400件,アノテートアセンブリ203件について,フロンティアMLLMとテキストのみLLMを評価した。
- 参考スコア(独自算出の注目度): 37.03209423305997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models can write code to produce complex programs as well as use programs to do 3D modeling, which opens up a new avenue for 3D generation powered by their priors, world knowledge and reasoning. Yet existing benchmarks rarely evaluate 3D modeling through code. Such modeling demands more than runnable code: from a text or visual specification, a model must generate a parametric 3D program that is geometrically precise, semantically aligned and assembly-consistent. We introduce P3D-Bench, a benchmark for parametric 3D generation. Unlike a 3D mesh, a parametric 3D program exposes explicit dimensions, construction operations and part relations, revealing whether a model recovers a design's structure, not just its appearance. Under a unified protocol, P3D-Bench covers three task families (Text-to-3D, Image-to-3D and Assembly-3D) and scores each output for executability, geometric fidelity, topology, text-grounded constraints, multiview semantic alignment and part-level structure. We evaluate frontier MLLMs and text-only LLMs on 400 text cases, 400 image cases and 203 annotated assemblies, with domain-specific models as reference points. Our extensive evaluation yields three findings. First, assemblies are the hardest setting, where models still fail to compose multiple parts into a coherent structure. Second, models can often recover the global shape and semantic identity of the target object, yet fail to reproduce the precise parametric geometry specified by the input. Third, part-level modeling remains weak on assemblies, where models recover neither the geometry of each part nor the right number of parts. These results position P3D-Bench as a benchmark for evaluating precise parametric geometry and part-level structure in parametric 3D generation.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、複雑なプログラムを生成するためにコードを書くだけでなく、3Dモデリングを行うプログラムを使用することができる。
しかし、既存のベンチマークはコードを通して3Dモデリングを評価することは滅多にない。
テキストやビジュアル仕様から、モデルは幾何学的に正確で、セマンティックに整合し、組み立てに一貫性のあるパラメトリックな3Dプログラムを生成する必要がある。
パラメトリックな3D生成のためのベンチマークであるP3D-Benchを紹介する。
3Dメッシュとは異なり、パラメトリックな3Dプログラムは明示的な次元、建設操作、部分関係を公開し、モデルが外観だけでなくデザインの構造を復元するかどうかを明らかにする。
統一されたプロトコルの下では、P3D-Benchは3つのタスクファミリ(Text-to-3D, Image-to-3D, Assembly-3D)をカバーし、実行可能性、幾何学的忠実度、トポロジー、テキストグラウンド制約、マルチビューセマンティックアライメント、部分レベル構造の各アウトプットをスコアする。
テキストケース400件,画像ケース400件,アノテーション付きアセンブリ203件について,ドメイン固有モデルを基準点として,フロンティアMLLMとテキストのみLLMを評価した。
我々の広範な評価は3つの結果をもたらす。
まず、アセンブリは最も難しい設定であり、モデルが複数のパーツをコヒーレントな構造に組み立てることに失敗する。
第二に、モデルはしばしば対象オブジェクトのグローバルな形状と意味的アイデンティティを復元するが、入力によって指定された正確なパラメトリック幾何を再現することができない。
第三に、部品レベルのモデリングはアセンブリに弱いままであり、各部品の幾何や部品の正しい数も復元しない。
これらの結果は、P3D-Benchをパラメトリックな3次元生成における精密なパラメトリック幾何と部分レベルの構造を評価するためのベンチマークとして位置づけた。
関連論文リスト
- 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code [25.904997126319547]
3DCodeBenchは、3Dモデリングソフトウェアにおいて、手続き型3D生成のための視覚言語モデル(VLM)エージェントを評価するための体系的なベンチマークである。
3DCodeArenaは、生成された3D出力に対して、ペアワイズな人間の好みに基づくランキングプラットフォームです。
論文 参考訳(メタデータ) (2026-05-31T06:59:49Z) - PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Shape from Semantics: 3D Shape Generation from Multi-View Semantics [30.969299308083723]
既存の3D再構成手法では, 3次元画像, 3次元点雲, 形状輪郭, 単一意味論などのガイダンスを用いて3次元表面を復元する。
図形や外観が、異なる視点から見ると、与えられたテキストの意味と一致した3Dモデルを作成することを目的として、新しい3Dモデリングタスク「Shape from Semantics'」を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:51:59Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。