論文の概要: BIM-Edit: Benchmarking Large Language Models for IFC-Based Building Information Modeling
- arxiv url: http://arxiv.org/abs/2606.20146v1
- Date: Thu, 18 Jun 2026 12:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.841278
- Title: BIM-Edit: Benchmarking Large Language Models for IFC-Based Building Information Modeling
- Title(参考訳): BIM-Edit: IFCに基づくビル情報モデリングのための大規模言語モデルのベンチマーク
- Authors: Bharathi Kannan Nithyanantham, Clemens Kujat, Tobias Sesterhenn, Stefan Telgmann, Jörn Plönnigs, Stefan Lüdtke, Christian Bartelt,
- Abstract要約: 大規模言語モデル (LLM) はコンピュータ支援設計 (CAD) に適用され、設計成果物を生成する。
本稿では,ビルディング情報モデルの自然言語編集におけるLLMの評価ベンチマークであるBIM-Editを紹介する。
我々は,幾何学的精度,意味的妥当性,位相的整合性という3つの次元のアウトプットを評価する。
- 参考スコア(独自算出の注目度): 10.715011902262617
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly applied to computer-aided design (CAD) to generate design artifacts from textual instructions. In engineering practice, this requires more than creating new geometry, models must also understand existing scenes, edit them correctly, and preserve semantics and relations. However, many CAD benchmarks focus on creating new models rather than editing existing ones, and mostly evaluate geometric correctness. We introduce BIM-Edit, a benchmark for evaluating LLMs on natural-language editing of Building Information Models (BIM) represented in the Industry Foundation Classes (IFC) format. BIM provides a challenging testbed because building models encode geometry together with semantic and relational structure. BIM-Edit contains 324 editing tasks spanning 11 realistic building models and 36 synthetic scenes. Tasks are expressed using three instruction categories - direct, spatial, and topological - covering both explicit and scene-grounded edits. We evaluate outputs along three dimensions: geometric accuracy, semantic validity, and topological consistency. Across evaluated LLMs, the best-performing model achieves only 49.5% average score across the three metrics, and no model fully solves more than 3.4% of tasks. These results demonstrate a substantial gap between current LLM capabilities and the requirements of structured engineering design workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンピュータ支援設計(CAD)に適用され、テキスト命令から設計成果物を生成する。
エンジニアリングの実践では、これは新しい幾何学の作成以上のものを必要とし、モデルは既存のシーンを理解し、それらを正しく編集し、意味論と関係を保存する必要がある。
しかし、CADベンチマークの多くは、既存のモデルではなく、新しいモデルの作成に重点を置いており、主に幾何学的正確性を評価している。
本稿では,産業基盤クラス(IFC)形式で表現されるビルディング情報モデル(BIM)の自然言語編集におけるLLMの評価ベンチマークであるBIM-Editを紹介する。
BIMは、意味と関係構造と共に幾何学をエンコードするモデルを構築するため、挑戦的なテストベッドを提供する。
BIM-Editには、11の現実的なビルディングモデルと36の合成シーンにまたがる324の編集タスクが含まれている。
タスクは、3つの命令カテゴリ – 直接、空間、トポロジ – を使用して表現される。
我々は,幾何学的精度,意味的妥当性,位相的整合性という3つの次元のアウトプットを評価する。
評価されたLCM全体で、最高のパフォーマンスモデルは3つの指標で49.5%の平均スコアしか達成せず、3.4%以上のタスクを完全に解決するモデルは存在しない。
これらの結果は、現在のLLM機能と構造化エンジニアリング設計ワークフローの要件との間に大きなギャップがあることを示します。
関連論文リスト
- MUSE: Benchmarking Manufacturable, Functional, and Assemblable Text-to-CAD Generation [17.467056775887944]
MUSEは、複雑な編集可能な境界表現アセンブリに焦点を当てたText-to-CADベンチマークである。
MUSEは、コードチェック、幾何チェック、デザインインテントアライメントという3段階のプロトコルを通じて生成されたモデルを評価する。
クローズドソースおよびオープンソース LLM の実験では、実行可能コードから有効な幾何への明確な障害カスケードが明らかになった。
論文 参考訳(メタデータ) (2026-05-27T15:01:59Z) - OpenCompass: A Universal Evaluation Platform for Large Language Models [62.59671563145442]
汎用大規模言語モデル (LLM) は, 技術の進歩において重要なリンクとなっている。
メインストリームベンチマークデータセットは、タスクタイプの多様性、一貫性のない評価基準、データと処理の断片化といった課題に直面している。
本稿では,ワンストップ,スケーラブル,高精度な汎用評価プラットフォームであるOpen LLMをオープンソースとして提案する。
論文 参考訳(メタデータ) (2026-05-19T02:50:11Z) - FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - Text2BIM: Generating Building Models Using a Large Language Model-based Multi-Agent Framework [0.3749861135832073]
Text2 BIMフレームワークは、自然言語命令から3Dビルディングモデルを生成する。
ルールベースのモデルチェッカーがエージェントワークフローに導入され、LLMエージェントの問題解決をガイドする。
このフレームワークは、高品質で構造的に合理的なビルディングモデルを効果的に生成できる。
論文 参考訳(メタデータ) (2024-08-15T09:48:45Z) - StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。
私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。
我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-02-26T15:47:01Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。