論文の概要: SurgiQ: A Large-Scale Multi-Domain Benchmark for Evaluating Surgical Understanding in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.08071v1
- Date: Sat, 06 Jun 2026 09:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.760231
- Title: SurgiQ: A Large-Scale Multi-Domain Benchmark for Evaluating Surgical Understanding in Large Language Models
- Title(参考訳): SurgiQ: 大規模言語モデルの外科的理解を評価するための大規模マルチドメインベンチマーク
- Authors: Ayah Al-Naji, Edoardo Fazzari, Saif Alkindi, Hamdan Alhadhrami, Preslav Nakov, Cesare Stefanini,
- Abstract要約: 今回,SurgiQについて紹介する。SurgiQは6つの外科領域にまたがる,13,055の4つの選択肢の多重選択質問に対する,テキストのみのソースグラウンドベンチマークである。
汎用モデル、特にQwen2.5は、ほとんどのバイオメディカルモデルより優れている。
- 参考スコア(独自算出の注目度): 39.65665515356622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation of large language models in surgery remains underdeveloped. Broad medical benchmarks test clinical knowledge, while surgery requires procedural reasoning, management trade-offs, negation handling, and selection among plausible operative decisions. We present SurgiQ, a text-only, source-grounded benchmark of 13,055 four-option multiple-choice questions spanning six surgical domains and four question formats: case-based, reasoning, best-option, and negative. SurgiQ is constructed from surgical textbooks, open-access papers, and examination material using a multi-stage generation, verification, and expert-audit pipeline. We evaluate 35 open-weight LLMs under a unified log-likelihood protocol. Our results show substantial remaining headroom: smaller models often remain near the 25\% random baseline, while the best model reaches 68.1\% accuracy. General-purpose models, especially Qwen2.5, outperform most biomedical models, suggesting that current medical specialization does not yet provide sufficiently broad surgical coverage. Calibration and error analysis further show that even strong models make confident mistakes on clinically plausible distractors, motivating more reliable and broader surgical LLM evaluation.
- Abstract(参考訳): 手術における大規模言語モデルの信頼性評価はいまだに未開発である。
幅広い医療ベンチマークが臨床知識をテストする一方で、手術には手続き的推論、管理上のトレードオフ、否定的扱い、そして妥当な手術決定の選択が必要である。
症例ベース, 推論, ベストオプション, ネガティブの4つの質問形式と6つの手術領域にまたがる4つの選択肢の質問を, 13055 件のテキストのみのソースグラウンドベンチマークである SurgiQ を提示する。
SurgiQは、手術用教科書、オープンアクセス用論文、および多段階生成、検証、専門家監査パイプラインを用いた検査材料から構築されている。
統合ログ型プロトコルを用いて35個のオープンウェイトLCMを評価した。
より小さなモデルは25\%のランダムベースライン近くにとどまり、最良のモデルは68.1\%の精度に達する。
汎用モデル、特にQwen2.5は、ほとんどのバイオメディカルモデルよりも優れており、現在の医療専門化が十分な手術範囲を提供していないことを示唆している。
校正と誤り分析は、たとえ強力なモデルであっても、より信頼性が高くより広い外科的LLM評価を動機付ける、臨床的に妥当な障害に対して確実な誤りを犯すことを示している。
関連論文リスト
- When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG [9.174873068239135]
検索は、通常1-2点以内の非検索ベースラインよりも小さく、一貫性のない改善しか得られない。
バックボーンモデルの選択は、レトリバーやコーパスの選択よりもはるかに大きな効果がある。
これらの結果は,検索品質だけでなく,検索された証拠を効果的に活用する能力にも限界があることを示唆している。
論文 参考訳(メタデータ) (2026-06-02T18:34:54Z) - Medmarks: A Comprehensive Open-Source LLM Benchmark Suite for Medical Tasks [12.131182745922843]
Medmarksは、質問応答、情報抽出、医療計算、オープンな臨床推論にまたがる30のベンチマークを備えた、完全なオープンソース評価スイートである。
検証基準とLCM-as-a-Judgeを用いて,71構成の61モデルの体系的評価を行う。
論文 参考訳(メタデータ) (2026-05-02T12:29:03Z) - Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation [51.897472694590356]
Surg-R1は4段階のパイプラインで訓練された階層的推論によってギャップに対処する手術的視覚言語モデルである。
提案手法では,(1)知覚的根拠,関係理解,文脈的推論に外科的解釈を分解する3段階の推論階層,(2)320,000の推論ペアを持つ最大の外科的チェーン・オブ・シークエンス・データセット,の3つの重要な貢献を紹介する。
論文 参考訳(メタデータ) (2026-03-12T20:26:28Z) - When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。
LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。
本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文 参考訳(メタデータ) (2026-02-27T21:09:43Z) - NeuroABench: A Multimodal Evaluation Benchmark for Neurosurgical Anatomy Identification [56.133469598652624]
MLLM(Multimodal Large Language Models)は、外科的ビデオ理解において大きな可能性を秘めている。
Neurosurgical Anatomy Benchmark (NeuroABench)は、神経外科領域における解剖学的理解を評価するために明示的に作成された最初のマルチモーダルベンチマークである。
NeuroABenchは89の異なる手順をカバーする9時間の注釈付き神経外科ビデオで構成されている。
論文 参考訳(メタデータ) (2025-12-07T17:00:25Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Pattern Recognition or Medical Knowledge? The Problem with Multiple-Choice Questions in Medicine [3.471944921180245]
大規模言語モデル(LLM)は、医療領域において大きな可能性を示す。
これらの質問は、USMLEのような試験をモデルとしたMCQ(Multiple-choice Question)を用いて評価されることが多い。
私たちは、想像上のオルガンであるGlianorexを中心とした架空の医療ベンチマークを作成し、記憶された知識と推論能力の分離を可能にしました。
論文 参考訳(メタデータ) (2024-06-04T15:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。