論文の概要: DifferAD-R1: A Difference-Guided IndustrialAnomaly Localization with Multimodal LargeLanguage Models
- arxiv url: http://arxiv.org/abs/2606.16601v1
- Date: Mon, 15 Jun 2026 11:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.495415
- Title: DifferAD-R1: A Difference-Guided IndustrialAnomaly Localization with Multimodal LargeLanguage Models
- Title(参考訳): DifferAD-R1:マルチモーダル大言語モデルを用いた差動誘導型産業異常局所化
- Authors: Dingrong Wang, Xian Tao, Zhen Qu, Hengliang Luo, Xinyi Gong, Fei Shen, Zhengtao Zhang, Guiguang Ding,
- Abstract要約: 産業の異常な地域化は、工業製品の領域を正確に特定し、異常な地域を特定することを目的としている。
伝統的な閉集合法は、しばしばクロスシナリオの一般化に苦しむ。
本稿では,産業的異常局所化に適したMLLM強化学習フレームワークであるDifferAD-R1を提案する。
- 参考スコア(独自算出の注目度): 35.130552547723596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial anomaly localization aims to accurately identify and localize abnormal regions in industrial products, addressing the critical challenge of detecting unseen defect categories in real-world scenarios. Traditional closed-set methods often suffer from poor cross-scenario generalization, while existingMultimodal Large Language Model (MLLM)-based approachesface two core limitations: they either adopt QA-style paradigmsmisaligned with the practical demands of localization, or relyon standard optimization techniques such as Group RelativePolicy Optimization (GRPO), which fails to deliver effectivelearning signals for subtle defects. To tackle these issues, thispaper proposes DifferAD-R1, an MLLM-augmented reinforcement learning framework tailored for industrial anomaly localization. We design a Difference-Guided dual-image paradigm,which reformulates the localization task as a one-shot difference grounding problem to effectively explore cross-scenarioanomalies. A Dual-Consistency Localization Reward is developedfor hard-to-detect anomalies, enhancing optimization stabilityand robustness. Additionally, we integrate a difficulty-awarestrategy with adaptive reweighting and group-wise resamplingto prioritize learning on challenging instances. To facilitateevaluations in real-world industrial settings, we construct theAD-DualDiff dataset, comprising 13K paired images across 20categories. Experimental results demonstrate that DifferADR1 significantly outperforms existing baselines and achievescompetitive performance compared to large-scale models likeQwen3-VL (235B parameters). Our code is publicly availableat: https://github.com/Rong2026/work-1.
- Abstract(参考訳): 産業異常局所化は, 産業製品中の異常領域を正確に同定し, 局所化することを目的としており, 現実のシナリオにおいて, 目に見えない欠陥カテゴリーを検出するという重要な課題に対処する。
既存のMultimodal Large Language Model(MLLM)ベースのアプローチは、ローカライゼーションの実践的な要求に合わせたQAスタイルのパラダイムスミスを採用するか、グループ相対ポリシィ最適化(GRPO)のような標準最適化技術を採用するか、微妙な欠陥に対して効果的な学習信号を提供するのに失敗する。
これらの課題に対処するために,産業の異常な局所化に適したMLLM強化学習フレームワークであるDifferAD-R1を提案する。
そこで我々は,局所化タスクをワンショット差分基底問題として再構成した差分誘導デュアルイメージパラダイムを設計し,クロスセノリオアノマリーを効果的に探索する。
Dual-Consistency Localization Rewardは、最適化の安定性とロバスト性を向上し、ハード・トゥ・ディテクトな異常に対して開発された。
さらに,適応的再重み付けとグループワイド再サンプリングを併用して,難解なインスタンスの学習を優先する。
実世界の産業環境の評価を容易にするため,20カテゴリにわたる13Kのペア画像からなるAD-DualDiffデータセットを構築した。
実験結果から,DifferADR1はQwen3-VL(235Bパラメータ)のような大規模モデルと比較して,既存のベースラインを著しく上回り,競争性に優れていた。
私たちのコードは、https://github.com/Rong2026/work-1.comで公開されています。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Search-MIND: Training-Free Multi-Modal Medical Image Registration [13.33205970973723]
本稿では,インスタンス固有登録のためのトレーニング不要かつ反復的な最適化フレームワークであるSearch-MINDを提案する。
本稿では,情報伝達領域を優先する分散重み付き相互情報(VWMI)と,構造記述子の収束盆地を広げる検索-MIND(S-MIND)の2つの新しい損失関数を紹介する。
CARE Liver 2025とCHAOS Challengeデータセットの評価は、検索-MINDが古典的なベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-04-10T00:42:24Z) - Localized Kernel Projection Outlyingness: A Two-Stage Approach for Multi-Modal Outlier Detection [0.0]
Two-Stage LKPLOは、新しいマルチステージアウトレイラ検出フレームワークである。
従来の射影的手法の制約を克服する。
挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T03:53:46Z) - AD-FM: Multimodal LLMs for Anomaly Detection via Multi-Stage Reasoning and Fine-Grained Reward Optimization [43.86757207244911]
2つのシナジスティックな革新を通して制限に対処する包括的フレームワークを提案する。
まず、地域識別から集中検査までモデルをガイドする多段階議論的推論プロセスを導入する。
第2に、分類精度と局所化監督を組み込んだ微粒化報酬機構を開発する。
論文 参考訳(メタデータ) (2025-08-06T08:00:27Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - Robust Distribution Alignment for Industrial Anomaly Detection under Distribution Shift [51.24522135151649]
異常検出は産業アプリケーションの品質管理において重要な役割を担っている。
既存の方法は、一般化可能なモデルをトレーニングすることで、ドメインシフトに対処しようとする。
提案手法は,最先端の異常検出法や領域適応法と比較して,優れた結果を示す。
論文 参考訳(メタデータ) (2025-03-19T05:25:52Z) - Exploring Large Vision-Language Models for Robust and Efficient Industrial Anomaly Detection [4.691083532629246]
CLAD(Contrastive Cross-Modal Training)を用いた視覚言語異常検出法を提案する。
CLADは、視覚的特徴とテキスト的特徴をコントラスト学習を用いて共有埋め込み空間に整列する。
CLADは画像レベルの異常検出と画素レベルの異常局所化の両方において最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-01T17:00:43Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。