論文の概要: Evaluation of Medical Vision Language Models HuluMed and MedGemma, and general purpose chatbots Gemma 3, ChatGPT Plus, and Claude Pro on real previously unseen wound images
- arxiv url: http://arxiv.org/abs/2606.20723v1
- Date: Tue, 16 Jun 2026 22:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 13:32:49.568103
- Title: Evaluation of Medical Vision Language Models HuluMed and MedGemma, and general purpose chatbots Gemma 3, ChatGPT Plus, and Claude Pro on real previously unseen wound images
- Title(参考訳): HuluMedとMedGemmaと汎用チャットボットGemma 3、ChatGPT Plus、Claude Proの医療ビジョン言語モデルの評価
- Authors: Yunzhe Xue, Mohammed Saim Ahmed Quadri, Neal Panse, Justin W. Ady, Usman Roshan,
- Abstract要約: 本研究は, 臨床創傷評価のための, 汎用および医療専門のオープンソースおよびプロプライエタリなVision-Language Models (VLMs) の性能評価である。
ChatGPTは174/240の正解(72.50%)と149/240のクロード(62.08%)で最高パフォーマンスを達成した。
以上の結果から,現在,フロンティア汎用マルチモーダルシステムは医療用代替品よりも創傷解析性能が著しく高いことが示唆された。
- 参考スコア(独自算出の注目度): 2.6097841018267616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chronic wound assessment remains a clinically challenging task that requires accurate interpretation of wound morphology, tissue composition, vascular characteristics, and infection risk. Recent advances in Vision-Language Models (VLMs) have introduced the possibility of automated multimodal wound analysis through image understanding combined with clinical reasoning. This study evaluates the performance of several general-purpose and medically specialized open-source and proprietary VLMs for clinical wound assessment using an expanded, curated dataset of 20 clinically diverse wounds spanning vascular, surgical, ischemic, venous, lymphedema, and amputation-related etiologies. Six VLMs were evaluated using a structured twelve-question clinical framework covering wound classification, infection risk, vascular intervention recommendations, debridement urgency, wound therapy selection, and advanced management planning. Across 20 wound cases and 240 clinician-graded wound-analysis decisions, ChatGPT achieved the highest overall performance with 174/240 correct responses (72.50%), followed by Claude with 149/240 (62.08%). Among the open-source and medically specialized models, HuluMed achieved the strongest performance with 96/240 correct responses (40.00%), followed by Gemma 3 (81/240, 33.75%), MedGemma 4B (62/240, 25.83%), and MedGemma 27B (42/240, 17.50%). The findings suggest that frontier general-purpose multimodal systems currently demonstrate substantially stronger wound-analysis performance than medically specialized alternatives, highlighting the continued importance of broad multimodal reasoning capabilities alongside domain-specific medical knowledge. Although current VLMs demonstrate promising potential for clinical decision support, substantial limitations remain in advanced wound-management reasoning, procedural planning, and autonomous clinical reliability.
- Abstract(参考訳): 慢性的な創傷評価は、傷の形態、組織組成、血管特性、感染リスクの正確な解釈を必要とする臨床的に困難な課題である。
近年のVLM(Vision-Language Models)の進歩は,画像理解と臨床推論を組み合わせたマルチモーダル傷の自動解析の可能性をもたらしている。
本研究は, 血管, 外科的, 虚血, 静脈性, リンパ腫, 切断関連エチオロジーにまたがる20種類の臨床多彩な傷を対象とし, 臨床診断のための汎用的, 医学的に専門的なVLMの性能評価を行った。
創傷分類, 感染リスク, 血管介入推奨, 重度緊急性, 創傷治療選択, 高度管理計画を含む構造的12項目の臨床枠組みを用いてVLMの評価を行った。
20件の創傷と240件のクリニカルグレードによる創傷分析の判定で、ChatGPTは174/240の正答率(72.50%)、クロード149/240(62.08%)で最高成績を記録した。
オープンソースと医療専門のモデルの中で、HuluMedは96/240の正解率(40.00%)、Gemma 3(81/240, 33.75%)、MedGemma 4B(62/240, 25.83%)、MedGemma 27B(42/240, 17.50%)で最強のパフォーマンスを達成した。
この結果は、現在、フロンティアの汎用マルチモーダルシステムは、医療専門の代替品よりもはるかに強力な創傷分析性能を示しており、ドメイン固有の医療知識とともに、広範囲な多モーダル推論能力の重要性が引き続き強調されていることを示唆している。
現在のVLMは、臨床診断支援の有望な可能性を示しているが、高度な創傷管理推論、手続き計画、自律的な臨床信頼性には、かなりの制限が残っている。
関連論文リスト
- Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation [22.211535340726073]
LiveMedBenchは、オンライン医療コミュニティからリアルな臨床ケースを抽出する、継続的に更新されたベンチマークである。
LiveMedBenchは、38の専門医と複数の言語にまたがる2,756の現実世界のケースで構成され、16,702のユニークな評価基準と組み合わせている。
大規模な評価では、最高のパフォーマンスモデルでさえ39.2%しか達成せず、84%のモデルがカット後のケースで性能劣化を示す。
論文 参考訳(メタデータ) (2026-02-10T23:38:25Z) - 47B Mixture-of-Experts Beats 671B Dense Models on Chinese Medical Examinations [10.072653135781207]
本稿では,中国における医学検査問題に対する27大言語モデル (LLM) のベンチマーク評価を行った。
解析の結果,Mixtral-8x7Bの精度は74.25%と高いことがわかった。
この評価は、心臓血管および神経学の質問に対して、モデルが一般的により良く機能する、医学的専門性の間の大きなパフォーマンスギャップを示す。
論文 参考訳(メタデータ) (2025-11-16T06:08:41Z) - Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights [6.5907034989882725]
MedVQA (Medicical Visual Question Answering) は、医療画像の解釈を質問応答によって自動化し、放射線科医を支援するための有望なツールである。
モデルやデータセットの進歩にもかかわらず、MedVQAの臨床システムへの統合は依然として限られている。
本研究は,インドとタイから68の出版物と50人の臨床医を体系的にレビューし,MedVQAの実用性,課題,ギャップについて検討した。
論文 参考訳(メタデータ) (2025-07-09T09:51:20Z) - Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration [17.11245701879749]
Generalist Medical AI (GMAI) システムは、バイオメディカル認知タスクにおいて、専門家レベルのパフォーマンスを実証している。
本稿では,XMedGPTについて紹介する。XMedGPTはクリニック中心のマルチモーダルAIアシスタントで,テキストと視覚の解釈性を統合している。
我々は,マルチモーダル解釈可能性,不確実性定量化,予測モデリング,厳密なベンチマークの4つの柱にまたがってXMedGPTを検証する。
論文 参考訳(メタデータ) (2025-05-11T08:32:01Z) - ISLES'24: Final Infarct Prediction with Multimodal Imaging and Clinical Data. Where Do We Stand? [5.354756727899756]
ISLES24の課題は、予防的急性期脳梗塞画像と臨床データから最終梗塞量を予測することである。
マルチモーダルnnU-Netベースのアーキテクチャであるトップパフォーマンスモデルは、98ケースの隠れテストセットに対してDiceスコア0.285を達成した。
論文 参考訳(メタデータ) (2024-08-20T16:01:05Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。