Fugu-MT 論文翻訳(概要): Confidence Calibration for Multimodal LLMs: An Empirical Study through Medical VQA

論文の概要: Confidence Calibration for Multimodal LLMs: An Empirical Study through Medical VQA

arxiv url: http://arxiv.org/abs/2606.19950v1
Date: Thu, 18 Jun 2026 08:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 18:23:39.744411
Title: Confidence Calibration for Multimodal LLMs: An Empirical Study through Medical VQA
Title（参考訳）: マルチモーダルLDMの信頼性校正:医療用VQAによる実証的研究
Authors: Yuetian Du, Yucheng Wang, Ming Kong, Tian Liang, Qiang Long, Bingdi Chen, Qiang Zhu,
Abstract要約: MLLM(Multimodal Large Language Models)は、医療タスクにおいて大きな可能性を秘めている。彼らの信頼を招いたことは、しばしば実際の正確さと誤解し、誤診や正しいアドバイスを見落としてしまう可能性がある。本研究は,医療MLLMにおける精度と信頼性の関係を包括的に分析した最初の事例である。
参考スコア（独自算出の注目度）: 13.261644209591113
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) show great potential in medical tasks, but their elicited confidence often misaligns with actual accuracy, potentially leading to misdiagnosis or overlooking correct advice. This study presents the first comprehensive analysis of the relationship between accuracy and confidence in medical MLLMs. It proposes a novel method that combines Multi-Strategy Fusion-Based Interrogation (MS-FBI) with auxiliary expert LLM assessment, aiming to improve confidence calibration in Medical Visual Question Answering (VQA). Experiments demonstrate that our method reduces the Expected Calibration Error (ECE) by an average of 40\% across three Medical VQA datasets, significantly enhancing MLLMs' reliability. The findings highlight the importance of domain-specific calibration for MLLMs in healthcare, offering a more trustworthy solution for AI-assisted diagnosis.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、医療タスクにおいて大きな可能性を秘めているが、その信頼性は、しばしば実際の正確さと誤認し、誤診や正しいアドバイスを見落としてしまう可能性がある。本研究は,医療MLLMにおける精度と信頼性の関係を包括的に分析した最初の事例である。医用視覚質問応答(VQA)における信頼性校正の改善を目的とした,MS-FBIとLCMアセスメントを組み合わせた新しい手法を提案する。実験により,本手法は3つの医療用VQAデータセットに対して平均40%の精度で校正誤差(ECE)を低減し,MLLMの信頼性を著しく向上させることが示された。この発見は、医療におけるMLLMのドメイン固有の校正の重要性を強調し、AI支援診断のためのより信頼できるソリューションを提供する。

関連論文リスト

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs [51.129595320595094]
臨床意思決定 (CDM) は、臨床医が診断を推測し、治療を選択し、不完全な証拠の下で将来の健康結果を予測する、現実的な臨床の中心である。 LLMモデルは、強力な言語能力、幅広い生物医学的知識、効率性のために、これらの決定をサポートするためにますます使われています。 LLMの実際の臨床決定タスクに対する信頼性は、まだ十分に理解されていない。
論文参考訳（メタデータ） (2026-05-28T22:38:26Z)
Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。本ベンチマークでは,3種類の医療データを統合し,診断を行う。本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文参考訳（メタデータ） (2026-01-22T04:51:39Z)
MEGAN: Mixture of Experts for Robust Uncertainty Estimation in Endoscopy Videos [2.969789372985515]
我々は,複数のAI専門家による不確実性推定と予測を集約するマルチエキスパートゲーティングネットワークMEGANを提案する。 MEGANのゲーティングネットワークは、それぞれのEDLモデルからの予測と不確実性を最適に組み合わせ、全体的な予測信頼性とキャリブレーションを高める。大規模な潰瘍性大腸炎(UC)臨床試験では、MEGANは既存の方法に比べてF1スコアが3.5%改善し、予想エラー(ECE)が30.5%減少した。
論文参考訳（メタデータ） (2025-09-16T07:42:01Z)
Prompt4Trust: A Reinforcement Learning Prompt Augmentation Framework for Clinically-Aligned Confidence Calibration in Multimodal Large Language Models [4.035767214877404]
Prompt4Trustは,MLLMにおける信頼度校正をターゲットとした即時強化のための,最初の強化学習フレームワークである。従来のキャリブレーション技術とは異なり、Prompt4Trustは安全で信頼性の高い臨床診断に最も重要なキャリブレーションの側面を特に優先している。実験では,より大きなMLLMに対してゼロショットの一般化が期待できることを示した。
論文参考訳（メタデータ） (2025-07-12T13:21:10Z)
Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文参考訳（メタデータ） (2025-04-30T19:19:21Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。