論文の概要: When Confidence Lacks Concepts: Interpretable OOD Detection via Representation Perturbations
- arxiv url: http://arxiv.org/abs/2606.16196v2
- Date: Sun, 21 Jun 2026 13:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.128497
- Title: When Confidence Lacks Concepts: Interpretable OOD Detection via Representation Perturbations
- Title(参考訳): 信頼は概念を欠く:表現摂動による解釈可能なOOD検出
- Authors: Anju Chhetri, Pratik Shrestha, Ramesh Rana, Sam Philip, Prashnna Gyawali, Binod Bhattarai,
- Abstract要約: 本稿では,クラス条件のセマンティック摂動下でのモデル予測の安定性を探索する,解釈可能なOOD検出フレームワークを提案する。
OOD検出を条件付き安定性解析としてフレーミングすることにより,識別可能なOOD信号と解釈可能なレンズの両方をモデル不確かさを駆動する内部機構に提供する。
- 参考スコア(独自算出の注目度): 6.4945321478117455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have achieved remarkable performance across medical imaging tasks, yet their tendency to overgeneralize under distributional shifts poses a major obstacle to safe clinical deployment. Out-of-Distribution (OOD) detection methods aim to mitigate this risk, but most existing approaches rely on opaque internal signals with poorly understood semantic meaning, limiting trust in safety-critical settings. In this work, we propose an interpretable OOD detection framework that probes the stability of model predictions under class-conditioned semantic perturbations. Leveraging sparse autoencoders (SAEs), we learn class-specific concept vectors from in-distribution data that disentangle dense intermediate representations into sparse, semantically meaningful components. At inference, we perturb deeper-layer representations using the concept vectors associated with the model's predicted class and measure the class logits stability. We hypothesize that in-distribution samples exhibit low sensitivity to such perturbations, as their representations align with class-specific semantic directions, whereas OOD samples show amplified deviations due to representational misalignment. By framing OOD detection as a concept conditioned stability analysis, our approach provides both a discriminative OOD signal and an interpretable lens into the internal mechanisms driving model uncertainty, making it particularly suitable for high stakes medical applications.
- Abstract(参考訳): ディープ・ニューラル・ネットワークは、医療画像のタスク全体において顕著なパフォーマンスを達成したが、分布シフトの下で過度に一般化する傾向は、安全な臨床展開に大きな障害をもたらす。
アウト・オブ・ディストリビューション(OOD)検出手法は、このリスクを軽減することを目的としているが、既存のほとんどのアプローチは、理解されていないセマンティックな意味を持つ不透明な内部信号に依存し、安全クリティカルな設定に対する信頼を制限する。
本研究では,クラス条件のセマンティック摂動下でのモデル予測の安定性を探索する,解釈可能なOOD検出フレームワークを提案する。
スパースオートエンコーダ(SAE)を活用することで,高密度中間表現をスパースで意味のあるコンポーネントに分解する分布内データからクラス固有の概念ベクトルを学習する。
推論において、モデルの予測クラスに関連する概念ベクトルを用いて深い層表現を摂動し、クラスロジットの安定性を測る。
分布内サンプルは,表現がクラス固有の意味的方向と一致していることから,そのような摂動に対する感度が低いと仮定する一方,OODサンプルは表現的不一致による偏差が増幅されている。
OOD検出を条件付き安定性解析としてフレーミングすることにより、本手法はOOD信号と解釈可能なレンズの両方をモデル不確かさを駆動する内部機構に提供し、特に高利得医療応用に適している。
関連論文リスト
- Empirical Analysis of Adversarial Robustness and Explainability Drift in Cybersecurity Classifiers [0.0]
本稿では,2つのサイバーセキュリティ領域にまたがる敵対的堅牢性と説明可能性に関する実証的研究について述べる。
精度摂動曲線の領域として定義される量的指標であるロバストネス指数(RI)を導入する。
Phishing WebサイトとNB15データセットの実験では、一貫性のある堅牢性傾向が示されている。
論文 参考訳(メタデータ) (2026-02-06T05:30:37Z) - Optimal Transport-Induced Samples against Out-of-Distribution Overconfidence [36.624406746797085]
半離散最適輸送(OT)における特異性は意味的曖昧性の領域を示す。
OT誘起特異境界の幾何を利用してOOD過信を緩和する原理的枠組みを提案する。
本手法はOOD過信を著しく軽減し,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2026-01-29T06:29:36Z) - General OOD Detection via Model-aware and Subspace-aware Variable Priority [1.293838707857305]
教師付きモデルがトレーニング分布と有意に異なる入力にいつ遭遇するかを決定するためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
我々は、OOD検出のためのフレームワークを導入し、同時にモデル認識とサブスペース認識を行い、変数の優先順位付けを直接検出ステップに組み込む。
論文 参考訳(メタデータ) (2025-12-15T05:55:35Z) - Secure Diagnostics: Adversarial Robustness Meets Clinical Interpretability [9.522045116604358]
医用画像分類のためのディープニューラルネットワークは、臨床実践において一貫して一般化することができないことが多い。
本稿では, フラクチャー検出のために微調整された深部ニューラルネットワークの解釈可能性について, 対向攻撃に対するモデル性能の評価により検討する。
論文 参考訳(メタデータ) (2025-04-07T20:26:02Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - Diffusion Denoising Process for Perceptron Bias in Out-of-distribution
Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。
DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T08:45:08Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Provably Robust Detection of Out-of-distribution Data (almost) for free [124.14121487542613]
ディープニューラルネットワークは、アウト・オブ・ディストリビューション(OOD)データに対する高い過度な予測を生成することが知られている。
本稿では,認証可能なOOD検出器を標準分類器と組み合わせてOOD認識分類器を提案する。
このようにして、我々は2つの世界のベストを達成している。OOD検出は、分布内に近いOODサンプルであっても、予測精度を損なうことなく、非操作型OODデータに対する最先端のOOD検出性能に近接する。
論文 参考訳(メタデータ) (2021-06-08T11:40:49Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。