Fugu-MT 論文翻訳(概要): OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

論文の概要: OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

arxiv url: http://arxiv.org/abs/2606.12953v1
Date: Thu, 11 Jun 2026 06:24:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.61684
Title: OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models
Title（参考訳）: OpenMedQ: 医療ビジョンランゲージモデルのための幅広いオープンプレトレーニング
Authors: Ibrahim Gulluk, Max Van Puyvelde, Olivier Gevaert,
Abstract要約: 医用ビジョン言語モデルであるOpenMedQについて紹介する。 OpenMedQはPathVQA (75.9)で最先端のBLEU-1に達し、Med-PaLM Mの変種を562Bパラメータ(80倍)まで上回り、VQA-MED BLEU-1 (64.5)と最もよく報告されているVQA-MED BLEU-1 (64.5)と一致する。
参考スコア（独自算出の注目度）: 0.9245572323448122
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present OpenMedQ, a medical vision-language model pretrained on the broadest fully-open medical mix to date: 14 datasets totaling ~3.35M pretraining samples spanning pathology, radiology, microscopy, and text-only clinical QA. OpenMedQ reaches state-of-the-art BLEU-1 on PathVQA (75.9), beating Med-PaLM M variants up to 562B parameters (~80x larger), and matches the best reported VQA-MED BLEU-1 (64.5). Its vision encoder, transferred to 8 unseen medical classification benchmarks under an identical downstream recipe, obtains the highest average macro-F1 (0.757) among BiomedCLIP (0.745), PMC-CLIP (0.745), PubMedCLIP (0.746), and a from-scratch baseline (0.616). We release our code and an interactive demo is publicly available as a reproducible baseline for the community.
Abstract（参考訳）: 現在までに最も広範に開かれている医療用視覚言語モデルであるOpenMedQについて紹介する。 OpenMedQはPathVQA (75.9)で最先端のBLEU-1に達し、Med-PaLM Mの変種を562Bパラメータ(約80倍)まで上回り、最も報告されたVQA-MED BLEU-1(64.5)と一致する。ヴィジュアルエンコーダは、同じ下流のレシピの下で8つの未確認の医学分類ベンチマークに変換され、BiomedCLIP (0.745)、PMC-CLIP (0.745)、PubMedCLIP (0.746)、およびオフスクラッチベースライン (0.616)の中で、最も平均的なマクロF1 (0.757) を得る。コードを公開し、インタラクティブなデモをコミュニティの再現可能なベースラインとして公開しています。

関連論文リスト

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs [24.283989257873085]
VIVID-Medは,凍結した大言語モデル(LLM)を構造化意味論的教師として活用し,医療用ビジョントランスフォーマー(ViT)を事前訓練する新しいフレームワークである。 VIVID-Medは、臨床所見をUnified MedicalNIST (UMS) を介して検証可能なフィールド状態ペアに翻訳し、応答性を考慮したマスキングを用いて最適化に焦点を当てる。マクロAUCは0.8588で、500倍少ないデータを使用しながら、BiomedCLIPを+6.65ポイント上回る。
論文参考訳（メタデータ） (2026-03-10T02:42:51Z)
MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images [25.29568841502814]
一般化MLLMアーキテクチャ上に構築された医療基盤モデルであるMedMOを紹介する。 VQAベンチマークでは、MedMOはベースラインよりも平均精度が+13.7%向上した。医療報告生成において、MedMOは意味的および臨床的正確性の両方において大きな利益をもたらす。
論文参考訳（メタデータ） (2026-02-06T18:59:59Z)
Knowledge Graph Augmented Large Language Models for Disease Prediction [24.992170033802537]
知識グラフ(KG)誘導チェーン・オブ・シント(CoT)フレームワークは,MIMIC-IIIにおける来院レベルの疾患予測のための臨床基礎的推論を生成する。 ICD-9コードはPrimeKGにマッピングされ、病気関連ノードとマルチホップ推論パスが抽出され、CoT生成のための足場として使用される。 KG誘導モデルは、AUROC値0.66から0.70、マクロAUPR値0.40から0.47を達成し、強力な古典的ベースラインを上回った。盲目臨床評価では,KG誘導型CoT説明の明瞭度,関連性,臨床正当性に一貫した嗜好を示す。
論文参考訳（メタデータ） (2025-12-01T02:49:17Z)
EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T14:09:55Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。 3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。 OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文参考訳（メタデータ） (2023-07-27T20:36:02Z)
PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents [35.64805788623848]
PMC-OAは,PubMedCentralのOpenAccessサブセットから1.6Mイメージキャプチャペアを収集したバイオメディカルデータセットである。 PMC-OAは様々なモダリティや病気をカバーしており、ほとんどの画像キャプチャーサンプルはよりきめ細かいレベルで調整されている。 PMC-OA上でCLIPスタイルのモデルを事前学習しながら、PMC-CLIPと呼ばれるモデルが、様々なダウンストリームタスクで最先端の結果を得る。
論文参考訳（メタデータ） (2023-03-13T16:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。