論文の概要: GuideCAD: A Lightweight Multimodal Framework for 3D CAD Model Generation via Prefix Embedding
- arxiv url: http://arxiv.org/abs/2606.07024v1
- Date: Fri, 05 Jun 2026 08:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.633682
- Title: GuideCAD: A Lightweight Multimodal Framework for 3D CAD Model Generation via Prefix Embedding
- Title(参考訳): GuideCAD:プレフィックス埋め込みによる3次元CADモデル生成のための軽量マルチモーダルフレームワーク
- Authors: Minseong Kim, Jinyeong Park, Sungho Park, Jibum Kim,
- Abstract要約: 本稿では3次元CADモデルを生成するために意味的にリッチな視覚テキスト表現を利用するガイドCADを提案する。
GuideCADは画像埋め込みをプレフィックス埋め込みに変換するマッピングネットワークを使用し、事前訓練された大きな言語モデルで視覚情報とテキスト情報を統合できる。
実験の結果, GuideCADはパラメータを約4倍少なくし,微調整手法に比べてトレーニング効率を2倍に向上し,高品質な3D CADモデルを生成することがわかった。
- 参考スコア(独自算出の注目度): 6.339931887475017
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-modal approaches used for 3D CAD generation require substantial computational resources, necessitating efficient training. To address this, we propose GuideCAD, which leverages semantically rich visual-textual representations having only a small number of trainable parameters to generate 3D CAD models. Specifically, GuideCAD uses a mapping network that converts image embeddings into prefix embeddings, enabling a pretrained large language model to integrate visual and textual information. As a result, a transformer-based decoder predicts the construction sequence using the visual-textual embeddings in order to generate the 3D CAD model. For experimental evaluation, we construct a new dataset, referred to as GuideCAD, which consists of text-image pairs. Each pair includes a text prompt that represents a 3D CAD construction sequence and its corresponding 3D CAD image. Our experimental results show that GuideCAD generates comparably high-quality 3D CAD models while using approximately four times fewer parameters and achieving twice the training efficiency compared to fine-tuning approaches. We have released the source code and dataset for our method at: https://github.com/mskimS2/GuideCAD
- Abstract(参考訳): 3次元CAD生成に使用されるマルチモーダルアプローチは、かなりの計算資源を必要とし、効率的な訓練を必要とする。
そこで本研究では,少数のトレーニング可能なパラメータしか持たない意味的にリッチな視覚テキスト表現を活用して3次元CADモデルを生成するガイドCADを提案する。
具体的には、画像埋め込みをプレフィックス埋め込みに変換するマッピングネットワークを使用し、事前訓練された大きな言語モデルで視覚情報とテキスト情報を統合できるようにする。
その結果、3DCADモデルを生成するために、トランスフォーマーベースのデコーダが視覚テキスト埋め込みを用いて構築シーケンスを予測する。
実験的な評価のために,テキストと画像のペアからなるガイドCADと呼ばれる新しいデータセットを構築した。
各ペアは、3DCAD構築シーケンスとその対応する3DCADイメージを表すテキストプロンプトを含む。
実験の結果, GuideCADはパラメータを約4倍少なくし,微調整手法に比べてトレーニング効率を2倍に向上し,高品質な3D CADモデルを生成することがわかった。
https://github.com/mskimS2/GuideCAD
関連論文リスト
- SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design [26.634272863620975]
我々は242,000以上の産業部品からなる大規模データセットであるSldprtNetを紹介した。
このデータセットは、さまざまなトレーニングとテストをサポートするために、.stepと.sldprtフォーマットの両方で3Dモデルを提供する。
慎重に選択された実世界の産業部品を備え、スケーラブルなデータセット拡張のためのツールをサポートする。
論文 参考訳(メタデータ) (2026-03-13T15:47:08Z) - DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces [67.45867367326105]
ポイントレベルの監視から編集可能なBRepsを直接生成するマルチモーダル生成フレームワークであるDreamCADを提案する。
DreamCADは、各BRepをパラメトリックパッチの集合として表現し、メッシュを生成するために微分可能なテッセルレーション手法を使用する。
DreamCADはABCの最先端のパフォーマンスを達成し、テキスト、画像、点のモダリティにまたがるベンチマークを行う。
論文 参考訳(メタデータ) (2026-03-05T19:04:07Z) - RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base [112.72361202480154]
本稿では,3次元CADモデルを知識ベースとして活用する検索拡張手法であるRAG-6DPoseを提案する。
標準的なベンチマークと実世界のロボットタスクによる実験結果は、我々のアプローチの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2025-06-23T17:19:41Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach [15.785592359384292]
2次元CAD図面から3次元パラメトリックモデルを再構成するCAD2Programを提案する。
本稿では、2D CAD描画を元のフォーマットによらず画像として扱い、標準の ViT モデルで画像をエンコードする。
出力側では,本手法はテキスト形式で3次元パラメトリックモデルを記述する汎用言語を自動回帰予測する。
論文 参考訳(メタデータ) (2024-12-16T15:41:14Z) - Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry [12.265852643914439]
編集可能なパラメータを生成するために2次元画像入力を用いた最初の知識であるImg2CADを提案する。
Img2CADはAI 3D再構成とCAD表現のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-10-04T13:27:52Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - SECAD-Net: Self-Supervised CAD Reconstruction by Learning Sketch-Extrude
Operations [21.000539206470897]
SECAD-Netは、コンパクトで使いやすいCADモデルの再構築を目的とした、エンドツーエンドのニューラルネットワークである。
本研究は,CAD再構築の手法など,最先端の代替手段よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-19T09:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。