Fugu-MT 論文翻訳(概要): Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

論文の概要: Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

arxiv url: http://arxiv.org/abs/2606.12291v2
Date: Mon, 15 Jun 2026 05:53:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 13:45:31.115542
Title: Measuring Epistemic Resilience of LLMs Under Misleading Medical Context
Title（参考訳）: 軽度医学的文脈下でのLCMの疫学的レジリエンスの測定
Authors: Hongjian Zhou, Xinyu Zou, Jinge Wu, Sean Wu, Junchi Yu, Bradley Max Segal, Tobias Erich Niebuhr, Sara Amro, Michael Petrus, Sheikh Momin, Alexandra M. Cardoso Pinto, Rachel Niesen, Laura Sophie Wegner, Dhruv Darji, Jung Moses Koo, Joshua Fieggen, Kapil Narain, Mingde Zeng, Lei Clifton, Linda Shapiro, Fenglin Liu, David A. Clifton,
Abstract要約: 大規模言語モデル(LLMs)は、医療ライセンス試験のエキスパートレベルスコアに到達した。誤解を招く文脈が LLM が元来正しく答える質問に注入されると、彼らは正しい答えを放棄する。本研究は, 逆行性てんかんのレジリエンス下での正しい判断を維持できる能力と, 測定にMedMisBenchを導入している。
参考スコア（独自算出の注目度）: 47.20527783144983
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) now reach expert-level scores on medical licensing exams, encouraging the assumption that high scores imply safe medical judgment while patients increasingly use them for health advice. We show this assumption is fragile: when misleading context is injected into questions that LLMs originally answer correctly, they abandon the correct answer. We call the ability to maintain correct judgment under adversarial context epistemic resilience, and introduce MedMisBench to measure it. MedMisBench contains 10,932 medical question items and 48,889 misleading context-option pairs spanning medical reasoning, agentic capability, and patient-journey evaluation. Across 11 model configurations, mean accuracy falls from 71.1% on original questions to 38.0% under focused misleading context, with 51.5% attack success. The most damaging injections are formal, rule-like fabrications: authority-framed falsehoods reach 69.5% attack success and exception-poisoning claims reach 64.1%. A 14-member clinical panel from 7 countries identified serious potential harm in 38.2% of reviewed cases. MedMisBench exposes a structural blind spot in LLM evaluation in medical settings: existing benchmarks measure what models know, but not whether they preserve correct medical judgment under misleading context.
Abstract（参考訳）: 大規模言語モデル(LLM)は、医療ライセンス試験のエキスパートレベルスコアに到達し、高いスコアが医学的判断を暗示していると仮定し、患者は健康的なアドバイスのためにそれらを使用する傾向にある。誤解を招く文脈が LLM が元来正しく答える質問に注入されると、彼らは正しい答えを放棄する。本研究は, 逆行性てんかんのレジリエンス下での正しい判断を維持できる能力と, 測定にMedMisBenchを導入している。 MedMisBenchには10,932件の医療質問項目と48,889件の誤解を招くコンテキスト-オプションペアが含まれており、医療推論、エージェント能力、患者-ジャーニーの評価を含んでいる。 11のモデル構成で、最初の質問では平均精度が71.1%から38.0%に低下し、51.5%が攻撃に成功した。権威に縛られた偽造は69.5%の攻撃成功、例外的中毒の主張は64.1%に達する。 7カ国の14人の臨床試験委員会が、レビューされた症例の38.2%で深刻な潜在的危害が確認された。 MedMisBenchは、LLMの評価における構造的な盲点を医療環境で公開している。

関連論文リスト

Quantifying and Mitigating Premature Closure in Frontier LLMs [4.513932256095551]
早期閉鎖は診断ミスの原因として認識されているが、大言語モデル(LLM)では未検討である。構造的および開放的な医療課題における5つのフロンティアLSMの評価を行った。
論文参考訳（メタデータ） (2026-05-14T16:02:28Z)
PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
MedRECT: A Medical Reasoning Benchmark for Error Correction in Clinical Texts [0.0]
大規模言語モデル (LLM) は医療応用における将来性を示すが, 臨床用テキストにおける誤りの検出と訂正能力は, 未評価のままである。我々は,医療ミス処理を3つのサブタスクとして定式化する言語間ベンチマーク(日本語/英語)であるMedRECTを紹介する。プロプライエタリ、オープンウェイト、理性家族にまたがる9つの現代LSMを評価した。
論文参考訳（メタデータ） (2025-11-01T06:19:34Z)
EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T14:09:55Z)
PeruMedQA: Benchmarking Large Language Models (LLMs) on Peruvian Medical Exams -- Dataset Construction and Evaluation [0.6899744489931012]
AIMS: 専門的な訓練を追求するペルーの医師が取得した医学検査から質問のデータセットを構築する。 12の医療領域にまたがる8,380の質問を含む多票質問回答データセットであるPulchuMedQAをキュレートした。 Medgemma-27b-text-it は他の全てのモデルよりも優れており、いくつかの例では90%を超える正解率を達成した。
論文参考訳（メタデータ） (2025-09-15T02:07:26Z)
MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。 6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文参考訳（メタデータ） (2025-08-22T08:38:16Z)
Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文参考訳（メタデータ） (2025-02-26T02:30:44Z)
CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文参考訳（メタデータ） (2024-06-10T04:07:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。