Fugu-MT 論文翻訳(概要): A Benchmark for Hallucination Detection in VLMs for Gastrointestinal Endoscopy

論文の概要: A Benchmark for Hallucination Detection in VLMs for Gastrointestinal Endoscopy

arxiv url: http://arxiv.org/abs/2606.24115v1
Date: Tue, 23 Jun 2026 04:04:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.759125
Title: A Benchmark for Hallucination Detection in VLMs for Gastrointestinal Endoscopy
Title（参考訳）: 消化器内視鏡検査におけるVLMの幻覚検出基準
Authors: Aminu Lawal, Niyoj Oli, Sachin Acharya, Prashnna Gyawali, Maria Carmen Romano, Binod Bhattarai,
Abstract要約: 幻覚は医療実践における安全な配置の大きな障壁です我々は,4,392対のテストVQAを用いたGI診断用ビジュアル質問回答データセットGut-VLMデータセット上で,9つの幻覚検出手法をベンチマークした。
参考スコア（独自算出の注目度）: 6.125089178579483
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) are prone to hallucination, which remains a major barrier to their safe deployment in clinical practice. To date, most hallucination detection methods have been evaluated on radiology benchmarks such as MIMIC-CXR and VQA-RAD, while gastrointestinal (GI) endoscopy remains largely underexplored. In this paper, we benchmark nine hallucination detection methods on the Gut-VLM dataset, a GI diagnostic Visual Question Answering (VQA) dataset with 4,392 test VQA pairs, across five VLMs (MedGemma-4B, MedGemma-27B, LLaVA-Med-7B, LLaVA-v1.6-7B, and Lingshu-32B). The methods span three categories: black-box methods (RadFlag, SelfCheckGPT-NLI), gray-box methods (AvgProb, AvgEnt, MaxProb, MaxEnt, Semantic Entropy, and VASE), and a white-box method (ReXTrust). Our results show that ReXTrust, a white-box method, achieves the highest AUC across all five models, outperforming the strongest alternative method on each VLM by a statistically significant margin (paired permutation test, p < 0.001 in all cases), reaching a peak AUC of 93.0 on MedGemma-4B. White-box hidden-state access provides a consistent advantage of 19.5 AUC points on average (range: 9.5--33.5), with ReXTrust maintaining strong performance even on LLaVA-v1.6-7B (AUC 79.9), where black-box methods and clustering-based gray-box methods collapse to near-chance performance. Among non-white-box methods, token-level gray-box statistics (MaxEnt, MaxProb) are the strongest alternatives, outperforming both clustering-based gray-box methods (Semantic Entropy, VASE) and black-box approaches on average. We further identify confident confabulation, a failure mode in which models hallucinate with high inter-sample consistency or high token-level probability, as a systemic failure for both consistency and uncertainty-based methods.
Abstract（参考訳）: 視覚言語モデル(VLM)は幻覚の傾向が強く、臨床実践における安全な配置には大きな障壁が残っている。これまでに,MIMIC-CXRやVQA-RADなどの放射線検査で幻覚検出法が評価されている。本稿では,5つのVLM(MedGemma-4B,MedGemma-27B,LLaVA-Med-7B,LLaVA-v1.6-7B,Lingshu-32B)を対象に,GI診断用視覚質問応答(VQA)データセットであるGut-VLMデータセットの幻覚検出手法をベンチマークした。ブラックボックスメソッド(RadFlag、SelfCheckGPT-NLI)、グレーボックスメソッド(AvgProb、AvgEnt、MaxProb、MaxEnt、Semantic Entropy、VASE)、ホワイトボックスメソッド(ReXTrust)である。以上の結果から,5つのモデルで最大 AUC を達成し,統計学的に有意な差(全ての場合,p<0.001)で最強の代替手法を達成し,MedGemma-4B で 93.0 のピーク AUC に達することが示唆された。ホワイトボックスの隠蔽状態アクセスは平均19.5AUCポイント(範囲:9.5--33.5)で一貫した利点があり、LLaVA-v1.6-7B (AUC 79.9)でも強い性能を維持している。非ホワイトボックス法の中で、トークンレベルのグレーボックス統計(MaxEnt, MaxProb)は、クラスタリングベースのグレイボックス法(Semantic Entropy, VASE)とブラックボックス法(Black-box approach)のどちらよりも平均的に優れている。さらに、一貫性と不確実性に基づく手法の体系的失敗として、モデルが高いサンプル間一貫性または高いトークンレベルの確率で幻覚する失敗モードである自信の相違を同定する。

関連論文リスト

Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents [1.0152838128195467]
EPC(Evaluator Preference Collapse)はマルチモーダル環境で劇的に増幅されていることを示す。次に、クロスモーダル感染と呼ばれる新しい現象を示す。我々は、モデル間評価器アーキテクチャを優先ドリフトの主なリスク要因とみなす。
論文参考訳（メタデータ） (2026-06-15T13:18:20Z)
Halfway to 3D: Ensembling 2.5D and 3D Models for Robust COVID-19 CT Diagnosis [5.645096759437525]
胸部CT画像から新型コロナウイルス検出・疾患分類を行うための深層学習フレームワークを提案する。このフレームワークは2.5Dと3Dの両方の表現を統合し、補完的なスライスレベルとボリューム情報をキャプチャする。 PHAROS-AIF-MIHベンチマークの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2026-03-16T05:24:10Z)
FUGC: Benchmarking Semi-Supervised Learning Methods for Cervical Segmentation [63.7829089874007]
本稿では,頚椎椎間板断裂における半教師あり学習のための最初のベンチマークであるFetal Ultrasound Grand Challenge (FUGC)を紹介する。 FUGCは、500のトレーニング画像、90の検証画像、300のテスト画像を含む890のTVSイメージのデータセットを提供する。 Dice similarity Coefficient (DSC), Hausdorff Distance (HD), and Runtime (RT), with a weighted combination of 0.4/0.4/0.2。
論文参考訳（メタデータ） (2026-01-22T01:34:39Z)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。 ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文参考訳（メタデータ） (2025-10-02T02:14:33Z)
EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T14:09:55Z)
A Lightweight and Robust Framework for Real-Time Colorectal Polyp Detection Using LOF-Based Preprocessing and YOLO-v11n [2.4896276458398785]
本研究では,ポリプ検出のための新しい,軽量で効率的なフレームワークを提案する。ノイズの多いデータをフィルタリングするLocal Outlier Factorアルゴリズムと、YOLO-v11nディープラーニングモデルを組み合わせる。従来のYOLO法と比較して精度と効率が向上した。
論文参考訳（メタデータ） (2025-07-14T23:36:54Z)
Rethinking Clustering-Based Pseudo-Labeling for Unsupervised Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文参考訳（メタデータ） (2022-09-27T19:04:36Z)
Query-Efficient Black-box Adversarial Attacks Guided by a Transfer-based Prior [50.393092185611536]
対象モデルの勾配にアクセスできることなく、敵が敵の例を作らなければならないブラックボックスの敵設定を考える。従来の手法では、代用ホワイトボックスモデルの転送勾配を用いたり、モデルクエリのフィードバックに基づいて真の勾配を近似しようとした。偏りサンプリングと勾配平均化に基づく2つの事前誘導型ランダム勾配フリー(PRGF)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-13T04:06:27Z)
Chest x-ray automated triage: a semiologic approach designed for clinical implementation, exploiting different types of labels through a combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。 4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文参考訳（メタデータ） (2020-12-23T14:38:35Z)
COVIDLite: A depth-wise separable deep neural network with white balance and CLAHE for detection of COVID-19 [1.1139113832077312]
COVIDLiteは、CLAHE(Contrast Limited Adaptive Histogram Equalization)とDSCNN(Deep-wise Separable Convolutional Neural Network)を組み合わせたホワイトバランスである。提案したCOVIDLite法は,前処理のないバニラDSCNNと比較して性能が向上した。提案手法は,2進分類では99.58%,多進分類では96.43%,最先端手法では96.43%であった。
論文参考訳（メタデータ） (2020-06-19T02:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。