論文の概要: IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products
- arxiv url: http://arxiv.org/abs/2606.14383v2
- Date: Tue, 16 Jun 2026 03:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.638771
- Title: IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products
- Title(参考訳): IndustryBench-MIPU: 産業製品におけるマルチイメージ属性値抽出のベンチマーク
- Authors: Haonan Qi, Jin Cao, Yongqi Zhang, Xintong Wang, Weidong Tang, Bin Chen, Chengfu Huo, Haojun Pan, Hengyu You, Jing Li, Yingde Wang, Liang Ding,
- Abstract要約: IndustryBench-MIPUは、マルチイメージ産業製品理解のための最初の大規模ベンチマークである。
仕様表とネームプレートのテキスト認識、技術図面に対する視覚的推論、ドメイン知識、そして散在する仕様を組み立てるためのクロスイメージエビデンスの統合を探索する。
ベンチマークは、27,652枚にわたる4,559個の製品と、18の産業カテゴリにまたがる103,703個のアノテーションで構成されている。
- 参考スコア(独自算出の注目度): 24.36543103640838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial products such as valves and circuit breakers are defined by dense technical specifications that govern procurement, compatibility, and safety across supply chains. These specifications are scattered across multiple heterogeneous product images, including specification tables, nameplates, and technical drawings, yet whether Multimodal Large Language Models (MLLMs) can reliably recover them remains underexplored. To fill this gap, we introduce IndustryBench-MIPU, the first large-scale benchmark for multi-image industrial product understanding, built around structured attribute extraction -- recovering property-value pairs from product images. This task jointly probes text recognition on specification tables and nameplates, visual reasoning over technical drawings, domain knowledge to decode industrial terminology, and cross-image evidence integration to assemble scattered specifications. Concretely, the benchmark comprises 4,559 products across 27,652 images with 103,703 annotations spanning 18 industrial categories, constructed through multi-model consensus and three-tier quality assurance. Evaluating nine MLLMs under both single-image and product-level multi-image settings reveals a stark completeness gap: models achieve high precision (86--94%) but the best recovers only 49.9% of product-level attributes; moving from single-image to multi-image extraction costs 15--34 percentage points of recall. Multi-image completeness, not single-image accuracy, is the core bottleneck. Dataset and code are publicly available.
- Abstract(参考訳): バルブやサーキットブレーカーなどの工業製品は、サプライチェーン間の調達、互換性、安全性を管理する密集した技術仕様によって定義される。
これらの仕様は、仕様表、ネームプレート、技術図面を含む多種多様な製品画像に分散しているが、Multimodal Large Language Models (MLLM) が確実に回復できるかどうかはまだ未定である。
このギャップを埋めるために、IndustrialBench-MIPUを紹介します。これは、構造化属性抽出を中心に構築された、マルチイメージ産業製品理解のための最初の大規模ベンチマークです。
このタスクは、仕様表やネームプレート上のテキスト認識、技術図面に対する視覚的推論、産業用語をデコードするためのドメイン知識、散在する仕様を組み立てるためのクロスイメージエビデンスの統合を共同で調査する。
具体的には、このベンチマークは、27,652枚にわたる4,559個の製品と、18の産業カテゴリにまたがる103,703個のアノテーションで構成され、マルチモデルコンセンサスと3層品質保証によって構築されている。
モデルの精度は86-94%だが、最高のリカバリは製品レベルの属性の49.9%に過ぎず、シングルイメージからマルチイメージの抽出コストは15-34ポイントである。
マルチイメージの完全性は、シングルイメージの精度ではなく、コアボトルネックである。
データセットとコードは公開されています。
関連論文リスト
- Visual Product Search Benchmark [0.0]
本報告では、インスタンスレベルの画像検索のための最新の視覚埋め込みモデルの構造化されたベンチマークを示す。
オープンソースのファウンデーション埋め込みモデル、プロプライエタリなマルチモーダル埋め込みシステム、ドメイン固有の視覚のみのモデルについて評価する。
評価は後処理なしで行われ、各モデルの検索能力を分離する。
論文 参考訳(メタデータ) (2026-03-17T22:29:03Z) - IC-Custom: Diverse Image Customization via In-Context Learning [93.65917928168558]
IC-Customは、位置認識と位置自由な画像カスタマイズをシームレスに統合する統合フレームワークである。
In-context Multi-Modal Attention (ICMA) 機構を提案する。
IC-Customは、試行錯誤、画像挿入、クリエイティブIPカスタマイズなど、さまざまな産業アプリケーションをサポートしている。
論文 参考訳(メタデータ) (2025-07-02T17:36:38Z) - MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.28164854480912]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文 参考訳(メタデータ) (2024-06-13T17:59:52Z) - Transformer-empowered Multi-modal Item Embedding for Enhanced Image
Search in E-Commerce [20.921870288665627]
マルチモーダルアイテム埋め込みモデル(MIEM)は、製品に関するテキスト情報と複数の画像の両方を利用して、意味のある製品機能を構築することができる。
MIEMはShopeeイメージ検索プラットフォームの一部となっている。
論文 参考訳(メタデータ) (2023-11-29T08:09:50Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - PatentNet: A Large-Scale Incomplete Multiview, Multimodal, Multilabel
Industrial Goods Image Database [3.0489474019962155]
本稿では,産業財画像と対応するテキストの多種多様で正確かつ詳細なアノテーションを備えた産業財データセットであるPatentNetを紹介する。
プロが手動でチェックした600万枚以上の画像とそれに対応する工業品のテキストの中で、PhilipsNetは初めて進行中の産業財画像データベースである。
画像分類,画像検索,不完全なマルチビュークラスタリングに関する広範な実験を通じて,我々の特許ネットはより多様性があり,複雑で,困難であることを示す。
論文 参考訳(メタデータ) (2021-06-23T03:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。