論文の概要: Uncertainty Is Not a Safety Net for Clinical VQA, but Can It Anticipate Model Failure?
- arxiv url: http://arxiv.org/abs/2606.16583v1
- Date: Mon, 15 Jun 2026 11:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.484109
- Title: Uncertainty Is Not a Safety Net for Clinical VQA, but Can It Anticipate Model Failure?
- Title(参考訳): 不確実性は臨床用VQAの安全ネットではないが, モデル故障を予測できるのか?
- Authors: Arnisa Fazla, Alberto Testoni, Ameen Abu-Hanna, Barbara Plank, Iacer Calixto,
- Abstract要約: 臨床視覚質問応答(VQA)における視覚言語モデル(VLM)の8つの手法をベンチマークした。
UEの品質はUE法の本質的な特性ではなく,モデルの精度を正確に追跡し,モデル性能の弱点を正確に判定する。
その結果,UEは脆弱な予測を識別し,摂動に基づく評価を安全な臨床展開への道として動機付けるための診断ツールとして位置づけられた。
- 参考スコア(独自算出の注目度): 33.91781729231922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe deployment of clinical vision-language models (VLMs) requires reliable uncertainty estimation (UE): a signal indicating when predictions should be trusted or escalated to a clinician. We test whether current UE methods actually deliver this signal. Benchmarking 8 methods across 12 VLMs on clinical visual question-answering (VQA), we find that UE quality is not an intrinsic property of the UE method: it tracks model accuracy, degrading precisely where the model performance is weakest, and therefore where reliability is most needed. When we stress-test models by hiding the correct option among the multiple-choice answers (NOTA perturbations), accuracy collapses while uncertainty barely changes, leaving models systematically miscalibrated. Yet, we find that uncertainty on the unperturbed input reliably anticipates which predictions will collapse under NOTA, indicating that UE in current VLMs carries diagnostic information about model fragility. Our results position UE as a diagnostic tool for identifying fragile predictions and motivate perturbation-based evaluation as a path toward safe clinical deployment.
- Abstract(参考訳): 臨床ビジョン言語モデル(VLM)の安全な展開には信頼性の高い不確実性推定(UE)が必要である。
我々は、現在のUE方式が実際にこの信号を提供するかどうかをテストする。
臨床視覚的質問応答(VQA)において,12VLMの8つの手法をベンチマークした結果,UEの品質はUE法の本質的な特性ではないことが判明した。
マルチチョイス回答(NOTA摂動)の中で正しい選択肢を隠すことでモデルをストレステストすると、不確実性がほとんど変化せずに精度が低下し、モデルは体系的に誤校正される。
しかし、不飽和入力の不確実性は、どの予測がNOTAの下で崩壊するかを確実に予測し、現在のVLMのUEがモデル脆弱性の診断情報を伝達していることを示す。
その結果,UEは脆弱な予測を識別し,摂動に基づく評価を安全な臨床展開への道として動機付けるための診断ツールとして位置づけられた。
関連論文リスト
- Measuring Prediction Uncertainty in Neural Cellular Automata [38.63800020586351]
NCAをベースとした医用画像セグメンテーションにおける不確実性評価について検討した。
提案手法は,NCAを,収束性アトラクタが確実な予測に対応する動的システムとみなすことによって動機づけられた。
論文 参考訳(メタデータ) (2026-05-26T09:05:03Z) - Towards Reliable Truth-Aligned Uncertainty Estimation in Large Language Models [54.51264434040939]
不確実性推定(UE)は、大規模言語モデル(LLM)の幻覚出力を検出することを目的とする。
ほとんどのUEメトリクスはモデル動作に由来するので、プロキシ障害としてこの現象を定式化します。
UE測定値の補正のためのポストホックキャリブレーション法であるTrath AnChoring (TAC)を提案する。
論文 参考訳(メタデータ) (2026-04-01T03:42:16Z) - Decision-Aware Trust Signal Alignment for SOC Alert Triage [0.0]
本稿では,SOC警告トリアージの信頼信号対応方式を提案する。
このフレームワークは、調整済みの信頼性、軽量不確実性、そしてコストに敏感な決定しきい値をコヒーレントな決定支持層に組み合わせている。
信頼度が不一致な表示によって偽陰性が大幅に増幅されるのに対し、コスト重み付き損失は決定整合信頼信号を持つモデル間での桁違いに減少することを示す。
論文 参考訳(メタデータ) (2026-01-08T01:41:54Z) - Enhancing Safety in Diabetic Retinopathy Detection: Uncertainty-Aware Deep Learning Models with Rejection Capabilities [0.0]
糖尿病網膜症(DR)は視覚障害の主要な原因である。
深層学習モデルは網膜画像からDRを特定することに成功している。
本稿では,不確実性を考慮したディープラーニングモデルにおいて,低信頼度予測を拒否する拒否機構を含む代替手法について検討する。
論文 参考訳(メタデータ) (2025-09-26T01:47:43Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - Beyond Uncertainty Quantification: Learning Uncertainty for Trust-Informed Neural Network Decisions - A Case Study in COVID-19 Classification [7.383605511698832]
信頼性の高い不確実性定量化は、医学的診断のような高い評価の応用において重要である。
従来の不確実性定量化法は、予測を自信または不確実性として分類するために、予め定義された信頼しきい値に依存する。
このアプローチは、しきい値を超える予測は信頼に値するが、それ以下の予測は信頼性の高い予測の正確性を明確に評価することなく不確実であると仮定する。
本研究では,予測の信頼度を学習することで,従来の不確実性定量化を拡張した不確実性認識型ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T04:20:12Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。