論文の概要: PROTON: Prototype-Based Test-Time Online OOD Detection for Medical VLMs
- arxiv url: http://arxiv.org/abs/2606.20913v1
- Date: Thu, 18 Jun 2026 20:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:00:43.339879
- Title: PROTON: Prototype-Based Test-Time Online OOD Detection for Medical VLMs
- Title(参考訳): PROTON:医療用VLMのプロトタイプベーステストタイムオンラインOOD検出
- Authors: Abhijit Das, Nichula Wasalathilaka, Yifan Lu, Adinath Dukre, Dwarikanath Mahapatra, Shadab Khan, Imran Razzak,
- Abstract要約: 医療ビジョン言語モデル(VLM)では、デプロイメント時のアウト・オブ・ディストリビューション(OOD)入力が未解決のままである。
ProTON(PROtotype-based Test-time Online OOD Detection)は,ストリームレベルの分散統計によるOODスコアとプロトタイプ距離を融合した軽量なポストホックモジュールである。
FLAIR + FIVESのベンチマークでは、PROTONは共変量シフトで+23.9 AUROC、セマンティックシフトで+8.8、遠OODで+8.1の改善を行い、階層的なプロンプトやラベル付きデータなしで3つすべてを改善する唯一のゼロショット法となった。
- 参考スコア(独自算出の注目度): 26.105088397249034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision-language models (VLMs) enable zero-shot clinical image classification, yet reliably detecting out-of-distribution (OOD) inputs at deployment remains an open problem. No static scoring method works across all shift types: Maximum Concept Matching (MCM) on FLAIR achieves 76.4% AUROC for far-OOD but only 42.4% for covariate shifts such as ultra-wide-field fundus images, effectively random. We trace this to a structural mismatch: covariate-shifted inputs are indistinguishable from in-distribution samples in softmax space, yet occupy distinct regions in the VLM embedding space. To exploit this untapped signal, we propose PROTON (PROtotype-based Test-time ONline OOD detection), a lightweight post-hoc module that maintains an online prototype bank from high-confidence test predictions and adaptively fuses prototype distance with MCM scoring via stream-level variance statistics, requiring no model modification, training data, or prompt engineering. On the ophthalmology benchmark FLAIR + FIVES, PROTON improves MCM by +23.9 AUROC on covariate shift, +8.8 on semantic shift, and +8.1 on far-OOD, making it the only zero-shot method to improve all three without hierarchical prompts or labeled data. Code is available at https://github.com/GenMI-Lab/PROTON, and the project page is available at https://genmi-lab.github.io/PROTON.
- Abstract(参考訳): 医用視覚言語モデル(VLM)は、ゼロショット臨床画像分類を可能にするが、デプロイ時のアウト・オブ・ディストリビューション(OOD)入力を確実に検出することは、未解決の問題である。
FLAIR上の最大概念マッチング(MCM)は76.4%のAUROCを超広視野眼底画像などの共変量シフトに対して42.4%しか達成していない。
共変量シフトされた入力は、ソフトマックス空間における分布内サンプルと区別できないが、VLM埋め込み空間内の異なる領域を占有する。
提案するPROtotype-based Test-time Online OOD Detection(PROtotype-based Test-time Online OOD Detection)は,信頼性の高いテスト予測からオンラインプロトタイプバンクをメンテナンスし,ストリームレベルの分散統計データやモデル修正,トレーニングデータ,迅速なエンジニアリングなどの必要なく,MCMスコアによるプロトタイプ距離を適応的に融合する軽量なポストホックモジュールである。
眼科のベンチマーク FLAIR + FIVES では、PROTON は共変量シフトで +23.9 AUROC 、セマンティックシフトで +8.8 と far-OOD で +8.1 の改善を行い、階層的なプロンプトやラベル付きデータなしで3つすべてを改善する唯一のゼロショット法となった。
コードはhttps://github.com/GenMI-Lab/PROTONで、プロジェクトページはhttps://genmi-lab.github.io/PROTONで入手できる。
関連論文リスト
- ProtoDCS: Towards Robust and Efficient Open-Set Test-Time Adaptation for Vision-Language Models [32.840734752367275]
Prototype-based Double-Check separation (ProtoDCS)はOSTTAの堅牢なフレームワークである。
csIDとcsOODを分離し、ビジョン言語モデルのcsIDデータへの安全かつ効率的な適応を可能にする。
ProtoDCSは、既知のクラス精度とOOD検出メトリクスの両方を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-27T03:39:02Z) - Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。
最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。
提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2025-01-14T12:51:34Z) - DisCoPatch: Taming Adversarially-driven Batch Statistics for Improved Out-of-Distribution Detection [11.332987462182713]
バッチ正規化 (BN) で訓練された敵判別器では、実検体と敵検体は独自のバッチ統計を持つ異なる領域を形成する。
本稿では,この機構を利用した教師なし適応変分自動エンコーダフレームワークであるDisCoPatchを紹介する。
DisCoPatchは、公開OOD検出ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-01-14T10:49:26Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Towards Reliable AI Model Deployments: Multiple Input Mixup for
Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文 参考訳(メタデータ) (2023-12-24T15:31:51Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of
Diffusion Models [92.43617471204963]
拡散確率モデル(DPM)は高分解能画像合成において非常に有望な能力を示した。
我々は既存のDPMサンプリング器の後に適用可能な統一補正器(UniC)を開発し、精度を向上する。
そこで我々は,DPMの高速サンプリングのためのUniPCと呼ばれる統合予測器・相関器フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-09T18:59:48Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。