論文の概要: Zero-Shot Learning in Industrial Scenarios: New Large-Scale Benchmark, Challenges and Baseline
- arxiv url: http://arxiv.org/abs/2606.07965v1
- Date: Sat, 06 Jun 2026 03:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.588464
- Title: Zero-Shot Learning in Industrial Scenarios: New Large-Scale Benchmark, Challenges and Baseline
- Title(参考訳): 産業シナリオにおけるゼロショット学習 - 新しい大規模ベンチマーク、課題、ベースライン
- Authors: Zekai Zhang, Qinghui Chen, Maomao Xiong, Shijiao Ding, Zhanzhi Su, Xinjie Yao, Yiming Sun, Cong Bai, Jinglin Zhang,
- Abstract要約: 本稿では,ゼロショット産業欠陥検出のためのオープン産業データセットとRTVP(Refined Text-Visual Prompt)を提案する。
MMIOは、産業用ゼロショット学習のための、最初の大規模マルチシーン事前学習データセットである。
RTVPは画像から直接視覚的プロンプトを自動生成し、テキストと視覚的プロンプトの相互作用を考慮する。
- 参考スコア(独自算出の注目度): 28.249460268707978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Visual Language Models (LVLMs) have achieved remarkable success in vision tasks. However, the significant differences between industrial and natural scenes make applying LVLMs challenging. Existing LVLMs rely on user-provided prompts to segment objects. This often leads to suboptimal performance due to the inclusion of irrelevant pixels. In addition, the scarcity of data also makes the application of LVLMs in industrial scenarios remain unexplored. To fill this gap, this paper proposes an open industrial dataset and a Refined Text-Visual Prompt (RTVP) for zero-shot industrial defect detection. First, this paper constructs the Multi-Modal Industrial Open Dataset (MMIO) containing 80K+ samples. MMIO contains diverse industrial categories, including 6 super categories and 18 subcategories. MMIO is the first large-scale multi-scenes pre-training dataset for industrial zero-shot learning, and provides valuable training data for open models in future industrial scenarios. Based on MMIO, this paper provides a RTVP specifically for industrial zero-shot tasks. RTVP has two significant advantages: First, this paper designs an expert-guided large model domain adaptation mechanism and designs an industrial zero-shot method based on Mobile-SAM, which enhances the generalization ability of large models in industrial scenarios. Second, RTVP automatically generates visual prompts directly from images and considers text-visual prompt interactions ignored by previous LVLM, improving visual and textual content understanding. RTVP achieves SOTA with 42.2% and 24.7% AP in zero-shot and closed scenes of MMIO.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は視覚タスクにおいて顕著な成功を収めた。
しかし、産業シーンと自然シーンの顕著な違いは、LVLMの適用を困難にしている。
既存のLVLMは、オブジェクトをセグメント化するユーザーが提供するプロンプトに依存している。
これはしばしば、無関係なピクセルを含むため、最適以下のパフォーマンスをもたらす。
加えて、データの不足により、産業シナリオにおけるLVLMの応用も未解明のままである。
このギャップを埋めるために、ゼロショット産業欠陥検出のためのオープン産業データセットとRefined Text-Visual Prompt(RTVP)を提案する。
まず,80K以上のサンプルを含むMMIO(Multi-Modal Industrial Open Dataset)を構築する。
MMIOには6つのスーパーカテゴリと18のサブカテゴリを含む様々な産業カテゴリがある。
MMIOは、産業用ゼロショット学習のための最初の大規模マルチシーン事前トレーニングデータセットであり、将来の産業シナリオにおけるオープンモデルのための貴重なトレーニングデータを提供する。
MMIOに基づいて,産業用ゼロショットタスクに特化してRTVPを提供する。
RTVPには2つの大きな利点がある: まず、専門家が指導する大規模モデルドメイン適応機構を設計し、産業シナリオにおける大規模モデルの一般化能力を向上するMobile-SAMに基づく産業ゼロショット法を設計する。
第2に、RTVPは画像から直接視覚的プロンプトを自動生成し、従来のLVLMで無視されたテキスト-視覚的プロンプトを考慮し、視覚的およびテキスト的コンテンツ理解を改善する。
RTVPは、MMIOのゼロショットおよびクローズドシーンにおいて42.2%、24.7%のAPでSOTAを達成する。
関連論文リスト
- Unification of Closed-Open Industrial Detection Scenarios: New Large-Scale Benchmarks,Challenges and Baselines [50.471211036005286]
大規模マルチモーダル・インダストリアル・オープン・クローズド・ベンチマーク(MMIOC-1M)を導入する。
MMIOC-1Mは、オープンボキャブラリとクローズドセットの工業検出をサポートする最初の統一された最大のベンチマークである。
本稿では,3つの重要なイノベーションを取り入れたRTVPNetを提案する。
論文 参考訳(メタデータ) (2026-06-06T03:06:10Z) - OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding [55.29748680163419]
Video Temporal Grounding (VTG)は、データセットの規模やセマンティックな多様性が制限されているため、オープンワールド設定で苦労している。
オープンワールドVTGのための新しい大規模データセットであるOmniVTGを紹介する。
MLLMをトレーニングして、まず予測を行い、その理解能力を使用して、独自の予測を反映し、洗練します。
論文 参考訳(メタデータ) (2026-04-28T06:34:19Z) - Open-vocabulary 3D scene perception in industrial environments [0.0]
2D Vision-Language Foundation Models (VLFMs) を利用した最近のオープン語彙法はこの課題をターゲットにしている。
まず、そのようなモデルが一般化に失敗し、一般的な産業オブジェクトでは性能が良くないことを実証する。
本稿では,この制限を克服する学習自由でオープンな3次元知覚パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-23T13:22:51Z) - ZERO: Industry-ready Vision Foundation Model with Multi-modal Prompts [1.2744523252873352]
Superb AIは業界対応のビジョンファウンデーションモデルであるZEROを導入した。
ZEROは、プロプライエタリな10億規模の産業データセットからの0.9百万の注釈付きサンプルで訓練されている。
ZEROは、ドメイン固有のゼロショット産業アプリケーションのために明示的に構築された最初のビジョン基盤モデルである。
論文 参考訳(メタデータ) (2025-07-06T07:03:27Z) - MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection [66.05200339481115]
本稿では,産業異常検出における最初のフルスペクトルMLLMベンチマークであるMMADを提案する。
産業検査におけるMLLMの7つの重要なサブタスクを定義し,MMADデータセットを生成するための新しいパイプラインを設計した。
MMADを用いて,様々な最先端MLLMの包括的,定量的評価を行った。
論文 参考訳(メタデータ) (2024-10-12T09:16:09Z) - IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。
本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。
このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文 参考訳(メタデータ) (2024-04-23T13:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。