論文の概要: When Large Language Models Fail in Healthcare: Evaluating Sensitivity to Prompt Variations
- arxiv url: http://arxiv.org/abs/2606.07237v1
- Date: Fri, 05 Jun 2026 13:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.744103
- Title: When Large Language Models Fail in Healthcare: Evaluating Sensitivity to Prompt Variations
- Title(参考訳): 医療における大規模言語モデルが機能しない場合--多変量に対する感性の評価
- Authors: Mahdi Alkaeed,
- Abstract要約: 大規模言語モデル (LLMs) は、臨床質問応答、診断支援、報告要約などのタスクのために医療でますます使われている。
彼らの約束にもかかわらず、これらのモデルは語彙的および構文的両方の微妙な急激な摂動に対して非常に敏感であり、安全クリティカルな臨床応用に重大なリスクをもたらす。
摂動を自然型, 逆型に分類し, モデル整合性, 精度, 信頼性に及ぼす効果について検討した。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in healthcare for tasks such as clinical question answering, diagnosis support, and report summarization. Despite their promise, these models remain highly sensitive to subtle prompt perturbations, both lexical and syntactic, posing serious risks in safety-critical clinical applications. In this study, we conduct a systematic sensitivity analysis to evaluate the robustness of both general-purpose (e.g., GPT-3.5, Llama3) and medical-specific LLMs (e.g., ClinicalBERT, BioLlama3, BioBERT) using the MedMCQA benchmark. We categorize perturbations into natural and adversarial types and examine their effect on model consistency, accuracy, and reliability in clinical reasoning tasks. Our findings reveal that medical LLMs are not intrinsically safe. Even minor variations in phrasing can alter clinical advice, and targeted adversarial prompts can provoke harmful outputs. In high-stakes settings like healthcare, such unpredictability is unacceptable-models that change diagnoses due to reworded inputs or hallucinate medications when slightly rephrased cannot be reliably trusted by clinicians. While models tend to show resilience to simple lexical substitutions or paraphrasing, they often break down under syntactic reordering or misleading contextual cues. This fragility is evident across both general-purpose and domain-specific LLMs. Notably, adversarial manipulations can lead to clinically dangerous outputs, such as recommending incorrect dosages or omitting critical findings.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、臨床質問応答、診断支援、報告要約などのタスクのために医療でますます使われている。
彼らの約束にもかかわらず、これらのモデルは語彙的および構文的両方の微妙な急激な摂動に対して非常に敏感であり、安全クリティカルな臨床応用に重大なリスクをもたらす。
本研究は,MedMCQAベンチマークを用いて,汎用性 (eg, GPT-3.5, Llama3) と医療用LCM (eg, ClinicalBERT, BioLlama3, BioBERT) の両方の堅牢性を評価するための系統的感度解析を行った。
摂動を自然型, 逆型に分類し, モデル整合性, 精度, 信頼性に及ぼす効果について検討した。
当科における LLM の安全性について検討した。
言い回しの微妙なバリエーションでさえ臨床アドバイスを変え、標的となる敵のプロンプトは有害なアウトプットを引き起こす。
医療のような高い状況下では、そのような予測不可能性は、言い換えられた入力や、わずかに言い換えられた場合の幻覚薬による診断を、臨床医が確実に信頼できないような、受け入れ難いモデルである。
モデルは単純な語彙置換や言い換えにレジリエンスを示す傾向にあるが、構文的順序変更や文脈的手がかりの誤解によってしばしば崩壊する。
この脆弱性は汎用LLMとドメイン固有LLMの両方で明らかである。
特に、敵対的な操作は、誤った服用を推奨したり、重大な発見を省略するなど、臨床的に危険なアウトプットにつながる可能性がある。
関連論文リスト
- Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs [5.580559622582594]
モデル感度を定量化するための指標として,MVS(Meaning Preserving Variation Sensitivity),信頼度変動(C),Worst-Case Instability(WCI)の3つを紹介した。
以上の結果から,ドメイン固有モデルの違いは混在しており,モデル依存度が高いことが示唆された。
論文 参考訳(メタデータ) (2026-05-28T23:03:43Z) - Artificial Intolerance: Stigmatizing Language in Clinical Documentation Skews Large Language Model Decision-Making [13.79732306725696]
大規模言語モデル(LLM)は、臨床上の意思決定支援や医療ドキュメントなど、高度な領域にますます展開されている。
臨床テキストの処理において、フロンティアLSMが人間のバイアスを継承し、伝播するかどうかを検討する。
論文 参考訳(メタデータ) (2026-05-17T02:28:25Z) - Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - When Minor Edits Matter: LLM-Driven Prompt Attack for Medical VLM Robustness in Ultrasound [17.261506344527195]
超音波を含む医用画像解析において,視覚言語モデル(VLM)は強いマルチモーダル推論能力と競合性能を示した。
Med-VLMは自然言語による命令で動作し、プロンプトの定式化を現実的で実用的に悪用可能な脆弱性点にしている。
本稿では,大規模言語モデル(LLM)を応用したスケーラブルな対数評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-22T03:58:34Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Mapping Clinical Doubt: Locating Linguistic Uncertainty in LLMs [4.360255198498071]
本研究は,医学テキストにおける言語的不確実性に対する入力側表現感度について検討する。
不確実性に対するモデル感度(MSU)は,不確実性によって誘導されるアクティベーションレベルシフトを階層的に推定する指標である。
論文 参考訳(メタデータ) (2025-11-27T12:26:06Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。
オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。
医学的抽象化と推論コーパス(M-ARC)について紹介する。
現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文 参考訳(メタデータ) (2025-02-05T18:14:27Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。