論文の概要: Ishigaki-IDS: An Open-Weight Verifier-Aware Model for Information Delivery Specification Drafting in Building Information Modeling
- arxiv url: http://arxiv.org/abs/2606.08545v1
- Date: Sun, 07 Jun 2026 09:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.199825
- Title: Ishigaki-IDS: An Open-Weight Verifier-Aware Model for Information Delivery Specification Drafting in Building Information Modeling
- Title(参考訳): 石垣IDS:ビル情報モデリングにおける情報配信仕様作成のためのオープンウェイト検証モデル
- Authors: Ryo Kanazawa, Koyo Hidaka, Teppei Miyamoto, Takayuki Kato, Tomoki Ando, Chenguang Wang, Dayuan Jiang, Naofumi Fujita, Shuhei Saitoh, Atomu Kondo, Koki Arakawa, Daiho Nishioka,
- Abstract要約: IDS ドラフト生成のためのオープンウェイト LLM である石垣IDS について述べる。
このモデルは、BIM/IDSコーパスの継続事前トレーニング、情報要求対IDSペアの微調整、および外部バリデータからの検証可能な報酬による強化学習を組み合わせる。
- 参考スコア(独自算出の注目度): 1.6608087520579546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building Information Modeling (BIM) projects require information requirements to be described as machine-checkable Information Delivery Specification (IDS) files in order to verify whether building models contain the required attributes. However, IDS authoring remains a practical bottleneck: practitioners must handle domain vocabulary, strict XML schema constraints, and external validator conformance while also checking whether the requirement itself is correctly expressed. We present Ishigaki-IDS, an open-weight LLM specialized for verifier-aware IDS draft generation. The model combines continued pretraining on BIM/IDS corpora, supervised fine-tuning on information-requirement-to-IDS pairs, and reinforcement learning with verifiable rewards from an external validator. The goal is not to replace expert review, but to move IDS authoring from low-level XML and schema repair toward validator-loadable drafts that practitioners can inspect and correct. On the 166-case expert-created Ishigaki-IDS-Bench, Ishigaki-IDS-8B achieves an IDSAuditPass score of 0.651, a validator-pass metric for generated IDS files, substantially outperforming Claude Opus 4.5, the strongest single-shot LLM baseline we evaluated, at 0.331. It also obtains an Audit-Gated FacetF1 of 0.282, which measures requirement-facet alignment among validator-passing drafts. The same recipe scales: 14B and 32B variants reach IDSAuditPass 0.753 / 0.693 and Audit-Gated FacetF1 0.392 / 0.369. In a workflow check with six BIM practitioners, Ishigaki-assisted authoring reduced aggregate work time by 54.7% under the same validation and alignment endpoint. These results suggest that verifier-aware IDS generation can reduce the practical burden of converting BIM information requirements into reviewable IDS drafts.
- Abstract(参考訳): ビルディングインフォメーション・モデリング(BIM)プロジェクトは、モデルの構築に必要な属性を含むかどうかを確認するために、マシンチェック可能なインフォメーション・デリバリ・仕様(IDS)ファイルとして記述する情報要件を必要とする。
実践者はドメインの語彙、厳密なXMLスキーマの制約、そして外部のバリデータの適合を扱いながら、要件自体が正しく表現されているかどうかを確認しなければならない。
IDS ドラフト生成のためのオープンウェイト LLM である石垣IDS について述べる。
このモデルは、BIM/IDSコーパスの継続事前トレーニング、情報要求対IDSペアの微調整、および外部バリデータからの検証可能な報酬による強化学習を組み合わせる。
目標は、専門家のレビューを置き換えるのではなく、IDSのオーサリングを低レベルのXMLやスキーマの修正から、実践者が検査し修正できる検証可能なドラフトに移行することです。
石垣IDS-8Bは166ケースの石垣IDS-Benchで、IDSAuditPassスコア0.651(IDSAuditPassスコア0.651)を達成した。
また 0.282 の Audit-Gated FacetF1 も取得している。
14Bと32BはIDSAuditPass 0.753 / 0.693、Audit-Gated FacetF1 0.392 / 0.369に達する。
6人のBIM実践者によるワークフローチェックでは、石垣氏は、同じ検証とアライメントエンドポイントの下で、総作業時間を54.7%削減した。
これらの結果から,検証者対応IDS生成により,BIM情報要求をレビュー可能なIDSドラフトに変換する作業の負担を軽減できることが示唆された。
関連論文リスト
- Automating Formal Verification with Reinforcement Learning and Recursive Inference [0.0]
我々はダフニーで検証可能な報酬(RLVR)と検証者誘導推論時間探索を用いてオープンソースモデルを訓練する。
固定ベースモデルでは、証明修正器を備えた完全な足場は、直接修理中の初期VeriCodingパイロットセットのパスレートを46.2%から69.2%に改善する。
Rust $texttcurve25519-dalek$検証プロジェクトから派生した,レポジトリスケールのLeanベンチマークであるDalek-Benchについても紹介します。
論文 参考訳(メタデータ) (2026-05-29T06:59:28Z) - Ontological Knowledge Blocks: Executable Compliance and Profile-Based Validation for Trustworthy AI Systems [0.0]
本稿では,規制義務を機械チェック可能な制約にコンパイルするプログラム可能なガバナンス基盤であるオントロジー知識ブロック(OKB)を紹介する。
決定論的規制コンパイラは構造化された中間表現(IR)レコードを構成可能なKBモジュールに変換し、プロファイルベースのガバナンス前駆を可能にする。
その結果、プロファイルに敏感な検証、厳密な付加的な違反の蓄積、SHACL検証の再設定のレイテンシーが12.6msから100.3ms、プロファイル等価性テストが厳密な包括的プロファイルとして確認された。
論文 参考訳(メタデータ) (2026-05-22T07:14:31Z) - Ishigaki-IDS-Bench: A Benchmark for Generating Information Delivery Specification from BIM Information Requirements [1.6608087520579546]
本稿では,IDS(Information Delivery Specification)XMLを生成する能力を評価するベンチマークであるIshigaki-IDS-Benchについて述べる。
ベンチマークには166人のBIM/IDS専門家による、検証済みのサンプルが含まれている。
IDSAuditToolベースのProcessability、Structure、Content監査と、ゴールドIDSファイルに対するコンテンツ収集評価を組み合わせる。
論文 参考訳(メタデータ) (2026-05-21T07:19:55Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - From Natural Language to Verified Code: Toward AI Assisted Problem-to-Code Generation with Dafny-Based Formal Verification [0.30915521808748864]
大規模な言語モデルは、自動化されたソフトウェア工学における約束を示すが、その正しさの保証は、誤ったコードや幻覚的なコードによってしばしば損なわれる。
NaturalLanguage2VerifiedCodeデータセット:60の複雑なアルゴリズム問題の集合を提供する。
7個のオープンウェイト LLM でランダムに選択された11個の問題集合をタイレッドプロンプト戦略を用いて評価した。
以上の結果から,コンテキストレスなプロンプトがほぼユニバーサルの失敗につながる一方で,構造的アンカーと反復的自己修復が劇的なパフォーマンスの転換を促進することが示唆された。
論文 参考訳(メタデータ) (2026-04-24T14:28:10Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation [4.723302382132762]
シリコングレードの正しさは、 (i) シミュレーション中心の評価の限られたカバレッジと信頼性、 (ii) 回帰と修復幻覚、 (iii) エージェントハンドオフ間で意図が再解釈される意味的ドリフトによってボトルネックが残っている。
エージェントの意図を整合させる設計契約を確立するマルチエージェントフレームワークであるVeri-Sureを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:10:23Z) - OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs [59.836774258359945]
OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。
ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。
CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z) - GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることでLCMレスポンスを編集することを提案し、また、サポートしているように見える事実の参照から証拠を提示する。
GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。
論文 参考訳(メタデータ) (2024-02-19T21:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。