論文の概要: Reassessing High-Performing LLMs on Polish Medical Exams: True Competence or Bias-Driven Performance?
- arxiv url: http://arxiv.org/abs/2606.12250v1
- Date: Wed, 10 Jun 2026 15:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.544866
- Title: Reassessing High-Performing LLMs on Polish Medical Exams: True Competence or Bias-Driven Performance?
- Title(参考訳): ポーランドの医療機関における高性能LCMの再評価:真の能力とバイアス駆動性能は?
- Authors: Antoni Lasik, Jakub Pokrywka, Łukasz Grzybowski, Jeremi Ignacy Kaczmarek, Gabriela Korzańska, Janusz Świeczkowski-Feiz, Oskar Pastuszek, Paulina Hoffman, Jakub Tomasz Dąbrowski, Wojciech Kusa,
- Abstract要約: 医学におけるLarge Language Model (LLM) は、主にMultiple-choice Question answering (MCQA) を用いて評価される。
ポーランドの医療試験に基づいて、より拡張され、より困難なベンチマークを導入し、15,000以上の質問と2つの新しいドメイン、そして4つの構造的な修正を加えました。
- 参考スコア(独自算出の注目度): 2.0293323907392584
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) in medicine are mainly evaluated using multiple-choice question answering (MCQA), which can overestimate real clinical ability due to guessing strategies and answer biases. To address these limitations, we introduce an expanded and more challenging benchmark based on Polish medical exams, adding over 15,000 questions, two new domains, and four structural modifications that reduce MCQA-specific artifacts and better test reasoning. We evaluate 21 LLMs and show that evaluation design strongly affects results. Under our harder setup, the best model (Qwen3.5-122B) drops by 28.4 and 31 pp on English and Polish exams, respectively. Despite low evidence of data contamination, standard MCQA scores do not reliably reflect true medical competence. To facilitate further research, we make our benchmark publicly available.
- Abstract(参考訳): 医学におけるLarge Language Model (LLM) は、主にマルチチョイス質問応答 (MCQA) を用いて評価される。
これらの制限に対処するため、ポーランドの医療試験に基づく拡張されたより困難なベンチマークを導入し、15,000以上の質問と2つの新しいドメイン、MCQA固有のアーティファクトの削減とより良いテスト推論のための4つの構造的な修正を加えました。
我々は21個のLCMを評価し,評価設計が結果に強く影響を及ぼすことを示す。
我々の厳しい設定の下では、最良のモデル(Qwen3.5-122B)は、それぞれ英語とポーランドの試験で28.4と31ppに低下した。
データ汚染の証拠は少ないが、標準的なMCQAスコアは真の医学的能力を確実に反映していない。
さらなる研究を容易にするため、ベンチマークを公開しています。
関連論文リスト
- MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - It is Too Many Options: Pitfalls of Multiple-Choice Questions in Generative AI and Medical Education [0.7771252627207672]
MCQ(Multiple-choice question)ベンチマークにおけるLLM(Large Language Models)の性能は、その医療能力の証明としてしばしば引用される。
我々は、ペアMCQ(FreeMedQA)を用いた自由応答型質問の新しいベンチマークを作成しました。
このベンチマークを用いて,3つの最先端LCM (GPT-4o, GPT-3.5, LLama-3-70B-instruct) を評価し,自由応答問題において平均39.43%の性能低下が認められた。
論文 参考訳(メタデータ) (2025-03-13T19:42:04Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Pattern Recognition or Medical Knowledge? The Problem with Multiple-Choice Questions in Medicine [3.471944921180245]
大規模言語モデル(LLM)は、医療領域において大きな可能性を示す。
これらの質問は、USMLEのような試験をモデルとしたMCQ(Multiple-choice Question)を用いて評価されることが多い。
私たちは、想像上のオルガンであるGlianorexを中心とした架空の医療ベンチマークを作成し、記憶された知識と推論能力の分離を可能にしました。
論文 参考訳(メタデータ) (2024-06-04T15:08:56Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。