論文の概要: OpenMedReason: Scientific Reasoning Supervision for Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.12169v1
- Date: Wed, 10 Jun 2026 14:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.513892
- Title: OpenMedReason: Scientific Reasoning Supervision for Medical Vision-Language Models
- Title(参考訳): OpenMedReason:医療ビジョンランゲージモデルのための科学的推論スーパービジョン
- Authors: Negin Baghbanzadeh, Pritam Sarkar, Michael Colacci, Abeer Badawi, Adibvafa Fallahpour, Arash Afkanpour, Leonid Sigal, Ali Etemad, Elham Dolatabadi,
- Abstract要約: 大規模かつオープンなマルチモーダル医療推論コーパスであるOpenMedReasonを紹介する。
放射線スキャン、顕微鏡画像、可視光写真、チャートなど、様々な医療領域の視覚モダリティをカバーしている。
OpenMedReasonを使用したトレーニングでは、ベースモデルよりも平均的なVQA精度が20%向上する。
- 参考スコア(独自算出の注目度): 45.337436216670746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-stakes clinical use of large vision-language models (LVLMs) requires reasoning that is grounded in visual evidence and clinical knowledge, not just correct final answers. We introduce OpenMedReason, a large-scale, open multimodal medical reasoning corpus comprising approximately 450K image-question-answer instances whose reasoning traces are primarily derived from curated biomedical, human-authored scientific articles. OpenMedReason provides high-fidelity supervision beyond synthetic chains of thought, covering diverse medical domain vision modalities such as radiological scans, microscopic images, visible light photographs, charts, and others. We complement it with OpenMedReason-Bench, a held-out benchmark that allows fine-grained evaluation of LVLMs along three complementary axes of capability, including perception, medical knowledge, and rationale, enabling diagnostic evaluation beyond final-answer accuracy. OpenMedReason is a rich training resource that exhibits its effectiveness in both supervised fine-tuning (SFT) and reinforcement-based alignment. Training with OpenMedReason yields a 20% average improvement in VQA accuracy over the base model and achieves performance within 4.2% of the strongest comparable-scale medical LVLMs. Fine-grained performance analysis confirms that the gains are not concentrated in any single axis: OpenMedReason improves perception, medical knowledge, and rationale jointly, and its reasoning traces are preferred over those of the base model in 86.1% of pairwise comparisons. We release the code and dataset at huggingface.co/datasets/neginb/OpenMedReason.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の高精細な臨床利用には、視覚的エビデンスと臨床知識に基づく推論が必要である。
著者らはOpenMedReasonを紹介した。OpenMedReasonは大規模でオープンなマルチモーダル医療推論コーパスで、約450Kの画像検索・回答インスタンスから構成される。
OpenMedReasonは、シンセサイザーチェーンを超えて、放射線スキャン、顕微鏡画像、可視光写真、チャートなど、さまざまな医療領域の視覚モダリティをカバーしている。
OpenMedReason-Benchは、LVLMを知覚、医学知識、合理性を含む3つの相補的な能力軸に沿ってきめ細かな評価を可能にし、最終回答精度以上の診断評価を可能にします。
OpenMedReasonは、教師付き微調整(SFT)と強化ベースのアライメントの両方において、その効果を示す豊富なトレーニングリソースである。
OpenMedReasonを使用したトレーニングでは、ベースモデルよりも平均的なVQA精度が20%向上し、最強の医療用LVLMの4.2%で性能が向上する。
OpenMedReasonは知覚、医学知識、合理性を共同で改善し、その推論トレースは、対比較の86.1%でベースモデルのそれよりも好まれる。
huggingface.co/datasets/neginb/OpenMedReasonでコードとデータセットをリリースします。
関連論文リスト
- S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文 参考訳(メタデータ) (2025-10-21T05:18:18Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making [42.28216499263317]
Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。
本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T13:42:46Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [22.376887343137884]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。