論文の概要: IterCAD: An Iterative Multimodal Agent for Visually-Grounded CAD Generation and Editing
- arxiv url: http://arxiv.org/abs/2606.13368v1
- Date: Thu, 11 Jun 2026 13:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.832058
- Title: IterCAD: An Iterative Multimodal Agent for Visually-Grounded CAD Generation and Editing
- Title(参考訳): IterCAD:ビジュアルなCAD生成と編集のための反復的マルチモーダルエージェント
- Authors: Tao Hu, Jiaxin Ai, Licheng Wen, Xueheng Li, Shu Zou, Siqi Li, Nianchen Deng, Xinyu Cai, Hongbin Zhou, Pinlong Cai, Daocheng Fu, Yu Yang, Hairong Zhang, Botian Shi, Xuemeng Yang,
- Abstract要約: IterCADは、クローズドループ、インタラクティブCAD生成および編集のための統合マルチモーダルエージェントフレームワークである。
複数のベンチマークで高い競争力を発揮し、コードの実行可能性と幾何学的精度の両方において、既存のアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 31.86100517851177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Computer-Aided Design is pivotal in modern manufacturing, yet existing automated methods predominantly rely on open-loop, one-shot generation, creating a mismatch with iterative real-world practices. In this paper, we present IterCAD, a unified multimodal agent framework for closed-loop, interactive CAD generation and editing. We formulate the task as a multi-turn interaction between a multimodal agent and an executable CAD sandbox, covering three tasks: Drawing-to-Code, Text-to-Code, and Interactive Editing. To support this, we develop a data synthesis pipeline incorporating advanced industrial manufacturing features to generate standard-compliant multi-view engineering drawings, complex code-editing tasks, and high-fidelity interaction trajectories. We optimize the agent via progressive SFT followed by geometry-aware reinforcement learning with viable-prefix masking to enhance code executability and geometric fidelity. Finally, we introduce the IterCAD-Bench evaluation suite and propose the Chamfer Distance Tolerance-Recall (CD-TR) curve alongside its AUC-TR metric, establishing a survivor-bias-free standard that unifies code validity and geometric precision. Extensive experiments demonstrate that IterCAD achieves highly competitive performance across multiple benchmarks, significantly outperforming existing approaches in both code executability and geometric precision, while exhibiting superior capabilities in closed-loop iterative refinement.
- Abstract(参考訳): コンピュータ支援設計は現代の製造において重要な要素であるが、既存の自動化手法は主にオープンループ、ワンショット生成に依存しており、反復的な現実世界のプラクティスとミスマッチする。
本稿では,クローズドループ,インタラクティブCAD生成,編集のための統合マルチモーダルエージェントフレームワークであるIterCADを提案する。
我々は,マルチモーダルエージェントと実行可能なCADサンドボックスとのマルチターンインタラクションとしてタスクを定式化し,描画・コーディング,テキスト・トゥ・コード,インタラクティブ編集の3つのタスクを網羅する。
これを支援するために, 産業用高度化を取り入れたデータ合成パイプラインを開発し, 標準準拠の多視点エンジニアリング図面, 複雑なコード編集タスク, 高忠実度インタラクショントラジェクトリを生成する。
エージェントをプログレッシブ SFT で最適化し,さらにジオメトリ・アウェア・リコメンデーション・ラーニングを行い,コード実行可能性と幾何学的忠実度を向上させる。
最後に、IterCAD-Bench評価スイートを導入し、そのAUC-TRメトリックと並行してChamfer Distance Tolerance-Recall(CD-TR)曲線を提案する。
大規模な実験により、IterCADは複数のベンチマークで高い競争性能を示し、コード実行可能性と幾何学的精度の両方において既存のアプローチよりも優れており、クローズドループイテレーティブ・リファインメントの優れた能力を示している。
関連論文リスト
- Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data [8.896486786253766]
実行可能CAD構築シーケンスのためのスケーラブルなフレームワークであるZero-to-CADを紹介する。
我々は,大規模言語モデルをフィードバック駆動CAD環境に組み込むことで,コードを反復的に生成し,実行し,検証する。
このエージェント的アプローチは、約100万の実行可能な可読性、編集可能なCADシーケンスの合成を可能にする。
論文 参考訳(メタデータ) (2026-04-27T13:46:41Z) - ArtiCAD: Articulated CAD Assembly Design via Multi-Agent Code Generation [24.959136090642758]
製品開発には, 集合体のパラメトリックコンピュータ支援設計(CAD)が不可欠である。
本研究では,テキストや画像から直接編集可能なCADアセンブリを生成することができる,最初のトレーニングフリーマルチエージェントシステムであるArtiCADを提案する。
論文 参考訳(メタデータ) (2026-04-13T04:49:30Z) - PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models [32.278474349549704]
PR-CADは、制御可能で忠実なテキスト・ツー・CADモデリングのための生成と編集を統一するプログレッシブ・リファインメント・フレームワークである。
データセットは、編集操作の種類を体系的に定義し、高度にヒューマンライクなインタラクションデータを生成する。
パブリックベンチマークでは、PR-CADは生成シナリオと改善シナリオの両方において最先端の制御性と忠実性を達成する。
論文 参考訳(メタデータ) (2026-03-27T12:13:20Z) - CME-CAD: Heterogeneous Collaborative Multi-Expert Reinforcement Learning for CAD Code Generation [30.08737988265254]
スケッチから3Dモデルを再構築する既存の方法は、しばしば非編集可能で近似的なモデルを生成する。
本稿では,CADコード生成のための新しい訓練パラダイムであるCME-CAD(Heterogeneous Collaborative Multi-Expert Reinforcement Learning)パラダイムを提案する。
MERL(Multi-Expert Fine-Tuning)とMulti-Expert Reinforcement Learning(MERL)という2段階の学習プロセスを導入する。
論文 参考訳(メタデータ) (2025-12-29T09:37:53Z) - From Intent to Execution: Multimodal Chain-of-Thought Reinforcement Learning for Precise CAD Code Generation [47.67703214044401]
CADモデリングコード生成のためのマルチモーダルChain-of-Thoughtガイド強化学習フレームワークCAD-RLを提案する。
本手法は,3つのタスク固有報酬を用いた目標駆動型強化学習ポストトレーニングとコールドスタートを組み合わせた。
CAD-RLは、推論品質、出力精度、コード実行可能性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-08-13T18:30:49Z) - CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning [31.342222156939403]
本稿では,2段階の微調整パラダイムであるCReFT-CADを紹介する。
われわれはTriView2CADをリリースした。
論文 参考訳(メタデータ) (2025-05-31T13:52:56Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。