論文の概要: UniSLAD: A Unified Framework for Structural and Logical Industrial Visual Anomaly Detection
- arxiv url: http://arxiv.org/abs/2606.20768v1
- Date: Thu, 18 Jun 2026 13:11:31 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:24:59.749907
- Title: UniSLAD: A Unified Framework for Structural and Logical Industrial Visual Anomaly Detection
- Title(参考訳): UniSLAD: 構造的および論理的産業的視覚異常検出のための統一フレームワーク
- Authors: Changyi Li, Chao Yang, Yu Xiao, Kari Tammi,
- Abstract要約: 我々はUniSLADと呼ばれる統一されたフレームワークを提案し、追加のトレーニングなしで論理的および構造的異常に共同で対処する。
まず、局所的なテクスチャ認識のための畳み込みニューラルネットワーク(CNN)バックボーンと、グローバルな文脈推論のためのTransformerバックボーンを相乗的に統合する2機能抽出器を提案する。
パッチレベルでは、Mahalanobis Transform (MT)によって強化されたメモリバンクは、代表的特徴を保持し、より差別的な異常スコアをサポートする。
- 参考スコア(独自算出の注目度): 4.587829504952397
- License:
- Abstract: Visual anomaly detection is a fundamental task in industrial automation. While existing approaches have achieved notable progress in identifying structural defects, the detection of logical anomalies remains relatively underexplored. In practice, structural and logical anomalies frequently co-occur in industrial workflows. Therefore, a solution capable of detecting both structural and logical anomalies is crucial for advancing comprehensive anomaly detection research. To address this limitation, we propose a unified framework, termed UniSLAD, which jointly addresses logical and structural anomalies without additional training, enabling a practical solution for dynamic industrial environments. First, we introduce a dual-feature extractor that synergistically integrates a Convolutional Neural Network (CNN) backbone for local texture perception with a Transformer backbone for global contextual reasoning, yielding richer and more comprehensive representations. Building on this foundation, we design dual-granularity feature representation modules. At the patch level, memory banks enhanced by the Mahalanobis Transform (MT) preserve representative features and support more discriminative anomaly scoring. At the image level, distribution maps are aggregated using Lower-Upper Mean (LUM) and Power Mean Pooling (PMP), yielding a more robust global representation than conventional average pooling. Extensive experiments on the two industrial benchmarks demonstrate that UniSLAD achieves competitive performance in comprehensive anomaly detection, achieving 99.4% and 93.1%, respectively. Furthermore, ablation studies verify the individual contributions and effectiveness of each proposed component.
- Abstract(参考訳): 視覚異常検出は産業自動化の基本的な課題である。
既存の手法は構造的欠陥の同定において顕著な進歩を遂げてきたが、論理的異常の検出はいまだに未発見のままである。
実際には、構造的および論理的異常は産業ワークフローにおいてしばしば共起する。
したがって, 構造異常と論理異常の両方を検出できる解は, 総合的異常検出研究の進展に不可欠である。
この制限に対処するために、我々はUniSLADと呼ばれる統合されたフレームワークを提案し、これは、追加のトレーニングなしで論理的および構造的異常に共同で対処し、動的産業環境に対する実用的な解決策を可能にする。
まず、局所的なテクスチャ認識のための畳み込みニューラルネットワーク(CNN)バックボーンと、グローバルな文脈推論のためのTransformerバックボーンを相乗的に統合し、よりリッチで包括的な表現を提供する。
この基礎の上に構築された二重粒度特徴表現モジュールを設計する。
パッチレベルでは、Mahalanobis Transform (MT)によって強化されたメモリバンクは、代表的特徴を保持し、より差別的な異常スコアをサポートする。
画像レベルでは、分布マップはLow-Upper Mean (LUM) とPower Mean Pooling (PMP) を用いて集約され、従来の平均プールよりもロバストなグローバル表現が得られる。
2つの産業ベンチマークの大規模な実験は、UniSLADが総合的な異常検出においてそれぞれ99.4%と93.1%の競争性能を達成していることを示している。
さらに, 各成分の個々の寄与と有効性について検討した。
関連論文リスト
- Beyond the Academic Monoculture: A Unified Framework and Industrial Perspective for Attributed Graph Clustering [75.50670592447219]
分散グラフクラスタリング(AGC)は、構造トポロジとノード属性を共同でモデル化することによって、ノードを凝集性グループに分割する基本的な教師なしタスクである。
この調査は、3つの相補的な視点からAGCを包括的かつ工業的に基礎づけたレビューを提供する。
論文 参考訳(メタデータ) (2026-03-21T14:15:34Z) - CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing [51.56484100374058]
CLAIREは、教師なしの深層表現学習と、スマート製造システムにおけるインテリジェントな品質管理のための教師付き分類を統合したハイブリッドエンドツーエンド学習フレームワークである。
最適化されたディープオートエンコーダを使用して、生の入力をコンパクトな潜伏空間に変換し、不適切な特徴やノイズを抑えながら本質的なデータ構造を効果的にキャプチャする。
提案したフレームワークは、堅牢な障害検出のために、説明可能なAIと機能認識の正規化を統合する可能性を強調している。
論文 参考訳(メタデータ) (2026-03-06T15:11:58Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Collaborative Reconstruction and Repair for Multi-class Industrial Anomaly Detection [37.057760207060554]
コラボレーティブ・リコンストラクション・アンド・リコンストラクション(CRR)は、リコンストラクションを修復に変換する。
我々は,デコーダからの表現が十分なローカル情報を含むことを保証するために,特徴レベルのランダムマスキングを実装した。
我々は,合成異常マスクによって教師されるセグメンテーションネットワークを訓練し,ローカライゼーション性能を向上させる。
論文 参考訳(メタデータ) (2025-12-12T09:24:23Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - Towards Training-free Anomaly Detection with Vision and Language Foundation Models [17.991678161890174]
異常検出は、産業品質検査のような現実世界の応用に有用である。
論理的および構造的異常検出のトレーニングを必要としない新しいマルチモーダルフレームワークであるLogSADを紹介する。
論文 参考訳(メタデータ) (2025-03-24T04:07:59Z) - Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection [2.3020018305241337]
産業異常検出は品質管理と予測維持に不可欠である。
既存の手法では、深層学習ネットワークから抽出された画像パッチから複数スケールの特徴を活用することで、デントやスクラッチなどの構造異常を一般的に検出する。
構造異常を検出するためのメモリと計算効率のよいアプローチであるDeep Feature Restruction (DFR) に注目し,これらの制約に対処する。
我々はさらに、DFRをUDSADと呼ばれる統一されたフレームワークに拡張し、構造的および論理的異常の両方を検出する。
論文 参考訳(メタデータ) (2024-10-21T17:56:47Z) - Learning Global-Local Correspondence with Semantic Bottleneck for
Logical Anomaly Detection [6.553276620691242]
本稿では,論理的制約を伴う視覚異常検出のためのGlobal-Local Cor correspondingence Framework (GLCF) という新しいフレームワークを提案する。
視覚異常検出は、産業的異常検出や医学的疾患の診断など、様々な現実世界の応用において活発な研究領域となっている。
論文 参考訳(メタデータ) (2023-03-10T08:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。