論文の概要: CMDS-AD: Cross-Modal Dual-Stream Decoupling for Few-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2606.20300v2
- Date: Mon, 22 Jun 2026 02:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.965013
- Title: CMDS-AD: Cross-Modal Dual-Stream Decoupling for Few-Shot Anomaly Detection
- Title(参考訳): CMDS-AD:Few-Shot異常検出のためのクロスモーダルデュアルストリームデカップリング
- Authors: Junhao Cai, Deyu Zeng, Junhao Pang, Junyu Chen, Qiwei Liang, Xiaopin Zhong, Zongze Wu,
- Abstract要約: 訓練データに制限があるため、わずかな撮影異常検出は依然として困難である。
CMDS-AD(Cross-Modal Dual-Stream Anomaly Detection framework)を提案する。
CMDS-ADは、MVTec 3D-ADで5.7%(I-AUROC)と2.0%(AUPRO)の絶対的なパフォーマンス向上を達成する。
- 参考スコア(独自算出の注目度): 22.190054508477704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot anomaly detection remains challenging due to limited training data. Multi-modal anomaly detection (MAD) offers a viable solution, leveraging 3D geometric cues to enrich 2D RGB representations and compensate for this scarcity. However, existing MAD methods apply spatially uniform feature processing, conflating stable macroscopic structures with high-frequency localized defect signals, exacerbating cross-modal misalignment and inflating false-positive rates. To overcome this, we present CMDS-AD, a Cross-Modal Dual-Stream Anomaly Detection framework. A LoRA-guided diffusion model generates diverse RGB samples to mitigate extreme data scarcity. For 3D normal augmentation, we employ a pre-trained diffusion model as a normal estimator. Crucially, this estimator inherently acts as a non-linear low-pass filter, directly extracting low-frequency normal representations from RGB inputs. This establishes an auxiliary estimated stream of purely low-frequency information, anchoring robust structural templates and assisting the uncompressed real stream, containing coupled high- and low-frequency components, to precisely isolate micro-defects. A Coordinate-Aware Hierarchical Feature Mapper adaptively aligns cross-modal semantics, while a multiplicative scoring mechanism filters modality-specific noise. Under the extreme 1-shot setting, CMDS-AD achieves absolute performance gains of 5.7% (I-AUROC) and 2.0% (AUPRO) on MVTec 3D-AD, alongside 7.7% and 5.6% improvements on EyeCandies, establishing a new state-of-the-art. Code is available at https://github.com/Junhaocai27/CMDS-AD
- Abstract(参考訳): 訓練データに制限があるため、わずかな撮影異常検出は依然として困難である。
マルチモーダル異常検出(MAD)は、3次元幾何学的手がかりを利用して2次元RGB表現を豊かにし、この不足を補う。
しかし、既存のMAD法では、空間的に均一な特徴処理を施し、高周波局所化欠陥信号と安定なマクロ構造を融合させ、不整合を悪化させ、偽陽性率を膨らませる。
これを解決するために、CMDS-AD(Cross-Modal Dual-Stream Anomaly Detection framework)を提案する。
LoRA誘導拡散モデル(英語版)は、極度のデータ不足を軽減するために多様なRGBサンプルを生成する。
3次元正規化では, 正規推定器として事前学習拡散モデルを用いる。
重要なことに、この推定器は本質的に非線形低域通過フィルタとして機能し、RGB入力から直接低周波正規表現を抽出する。
これにより、純低周波情報の補助的推定ストリームを確立し、ロバストな構造テンプレートをアンカーし、高周波成分と低周波成分を結合した非圧縮実ストリームを支援し、マイクロ欠陥を正確に分離する。
Coordinate-Aware Hierarchical Feature Mapperはクロスモーダルなセマンティクスを適応的に整列し、乗法的なスコアリング機構はモーダル固有のノイズをフィルタする。
極端な1ショット設定では、CMDS-ADはMVTec 3D-ADで5.7%(I-AUROC)と2.0%(AUPRO)の絶対的なパフォーマンス向上を達成する。
コードはhttps://github.com/Junhaocai27/CMDS-ADで入手できる。
関連論文リスト
- Frequency-Domain Regularized Adversarial Alignment for Transferable Attacks against Closed-Source MLLMs [59.973833105841685]
対向移動性を改善するための重要な課題は、異なるモデル間で共有される本質的な視覚的焦点を効果的に捉えることである。
本稿では、FRA-Attackを提案する。このFRA-Attackは、周波数領域の統一正規化の観点から、両方の課題に対処する。
機能アライメントのために、パッチ機能に対する高パスDCTは、冗長なグローバル構造を抑圧し、MLLMの固有の視覚的焦点を持つ高周波帯域の損失に集中する。
勾配最適化のために、代用勾配を変調するテキストモデルに依存しない低パス正規化器である周波数領域勾配正規化(FGR)を導入する。
論文 参考訳(メタデータ) (2026-05-20T08:15:56Z) - Two Steps Are All You Need: Efficient 3D Point Cloud Anomaly Detection with Consistency Models [0.3078691410268859]
拡散モデルは、ポイントクラウドデータにおける3D異常検出を急速に再定義している。
クリーンデータに対する再構築を明示的に実施する新しいハイブリッド損失定式化を導入する。
この設計は推論コストを大幅に削減し、現在の最先端の手法よりも最大80倍高速な実行を実現した。
論文 参考訳(メタデータ) (2026-05-06T18:52:53Z) - UDHF2-Net: Uncertainty-diffusion-model-based High-Frequency TransFormer Network for Remotely Sensed Imagery Interpretation [17.289252835606533]
不確実拡散モデルに基づく高周波トランスフォーマーネットワーク(UDHF2-Net)が最初に提案される。
UDHF2-Netは空間定常非定常高周波接続パラダイム(SHCP)である
Mask-and-geo-knowledge-based uncertainty diffusion module (MUDM) は自己指導型学習戦略である。
周波数ワイド半擬似半擬似UDHF2-Netは、変更検出の精度と複雑さのバランスをとるために提案された最初のものである。
論文 参考訳(メタデータ) (2024-06-23T15:03:35Z) - M3DM-NR: RGB-3D Noisy-Resistant Industrial Anomaly Detection via Multimodal Denoising [63.39134873744748]
既存の産業異常検出手法は主に、原始RGB画像を用いた教師なし学習に重点を置いている。
本稿では,CLIPの強力なマルチモーダル識別機能を利用する新しい耐雑音性M3DM-NRフレームワークを提案する。
M3DM-NRは3D-RGBマルチモーダルノイズ異常検出において最先端の手法より優れていた。
論文 参考訳(メタデータ) (2024-06-04T12:33:02Z) - Adaptive Multi-step Refinement Network for Robust Point Cloud Registration [82.64560249066734]
ポイントクラウド登録は、同じシーンの2つのポイントクラウド間の相対的な厳密な変換を推定する。
本稿では,前ステップからの情報を活用することで,各ステップの登録品質を向上する適応型多段階改良ネットワークを提案する。
本手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークの両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-05T18:59:41Z) - Orthogonal Matrix Retrieval with Spatial Consensus for 3D Unknown-View
Tomography [58.60249163402822]
未知視トモグラフィ(UVT)は、未知のランダムな向きで2次元投影から3次元密度マップを再構成する。
提案したOMRはより堅牢で、従来の最先端のOMRアプローチよりも大幅に性能が向上している。
論文 参考訳(メタデータ) (2022-07-06T21:40:59Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。