論文の概要: MedSIGHT: Towards Grounded Visual Comprehension in Medical Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.06760v1
- Date: Thu, 04 Jun 2026 22:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.473403
- Title: MedSIGHT: Towards Grounded Visual Comprehension in Medical Large Vision-Language Models
- Title(参考訳): MedSIGHT:医療用大視野モデルにおける接地型視覚理解に向けて
- Authors: Aofei Chang, Le Huang, Alex James Boyd, Parminder Bhatia, Taha Kass-Hout, Fenglong Ma, Cao Xiao,
- Abstract要約: 我々は、Med-LVLMに基底的視覚的理解のための構造化されたピクセルレベルの理解を持たせる統一的なフレームワークであるMedSIGHTを提案する。
MedSIGHTは、領域中心のトークンを生成し、空間情報を言語モデルの表現空間に直接エンコードする新しいRerea Perceiverモジュールを導入した。
さらに, LLM語彙に医学領域のコードブックを組み込むことにより, 解剖学的および病理学的領域の記号表現として離散領域のコードを生成することができる。
- 参考スコア(独自算出の注目度): 42.44822236388223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical large vision-language models (Med-LVLMs) have recently achieved remarkable progress in vision-language comprehension and medical image segmentation. However, existing models still struggle to unify these two capabilities, which is essential for achieving clinically reasoning that connects visual findings with semantic interpretation. We present MedSIGHT, a unified framework that equips Med-LVLMs with structured, pixel-level understanding for grounded visual comprehension. MedSIGHT introduces a novel Region Perceiver module that produces region-centric tokens, encoding spatial information directly into representation space of the language model. We further propose a medical region codebook into the LLM vocabulary, allowing the model to generate discrete region codes as symbolic representations of anatomical and pathological regions. These codes are decoded through the Region Perceiver to reconstruct segmentation mask, achieving end-to-end spatial grounding. Lastly, MedSIGHT combines Region Perceiver, Codebook and LLM using our proposed progressive training strategy to gradually aligns these modules stably. Trained on only 72K multimodal instruction pairs, MedSIGHT achieves state-of-the-art performance across diverse imaging modalities on both medical comprehension and segmentation tasks.
- Abstract(参考訳): 医用大規模視覚言語モデル (Med-LVLMs) は近年, 視覚言語理解と医用画像のセグメンテーションにおいて顕著な進歩を遂げている。
しかし、既存のモデルはこれらの2つの能力の統合に苦慮しており、視覚所見と意味解釈を結び付ける臨床的推論を達成するのに不可欠である。
我々は、Med-LVLMに基底的視覚的理解のための構造化されたピクセルレベルの理解を持たせる統一的なフレームワークであるMedSIGHTを提案する。
MedSIGHTは、領域中心のトークンを生成し、空間情報を言語モデルの表現空間に直接エンコードする新しいRerea Perceiverモジュールを導入した。
さらに, LLM語彙に医学領域のコードブックを組み込むことにより, 解剖学的および病理学的領域の記号表現として離散領域のコードを生成することができる。
これらのコードはRerea Perceiverを通じてデコードされ、セグメンテーションマスクを再構築し、エンドツーエンドの空間グラウンドを達成する。
最後に、MedSIGHTは、提案したプログレッシブトレーニング戦略を用いて、Regional Perceiver、Codebook、LLMを組み合わせることで、これらのモジュールを安定的に整列させる。
72Kのマルチモーダル命令ペアで訓練されたMedSIGHTは、医療的理解とセグメンテーションの両方のタスクにおいて、様々な画像モダリティにわたる最先端のパフォーマンスを達成する。
関連論文リスト
- MedP-CLIP: Medical CLIP with Region-Aware Prompt Integration [22.87996664536728]
地域対応医療ビジョン言語モデル(VLM)であるMedP-CLIPを提案する。
我々は、精密に構築された大規模データセット上でモデルを事前訓練する。
実験により,MedP-CLIPは各種医療タスクにおいて,ベースライン法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-04-13T08:53:36Z) - Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.016940516468674]
本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。
本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。
我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文 参考訳(メタデータ) (2024-10-24T02:55:41Z) - LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。
我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。
LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文 参考訳(メタデータ) (2024-10-22T12:13:47Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。