論文の概要: Jolia: Concept-Level Vision-Language Alignment for 3D CT Contrastive Learning
- arxiv url: http://arxiv.org/abs/2606.24570v1
- Date: Tue, 23 Jun 2026 13:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.970033
- Title: Jolia: Concept-Level Vision-Language Alignment for 3D CT Contrastive Learning
- Title(参考訳): Jolia:3次元CTコントラスト学習のための概念レベル視覚言語アライメント
- Authors: Julien Khlaut, Charles Corbière, Baptiste Callard, Amaury Prat, Leo Butsanets, Antoine Saporta, Théo Danielou, Leo Machado, Korentin Le Floch, Tom Boeken, Pierre Manceron, Corentin Dancette,
- Abstract要約: ConQuerは、CLIPのグローバルアライメントを局所的なアライメントのセットで強化する画像テキスト事前トレーニング手法である。
ConQuerはレポートを概念固有のセクションに分割し、一致するイメージ機能をプールするクロスアテンションクエリを学習する。
副産物として、各クエリは、その概念に焦点をあてたアテンションマップを学習し、組込み空間解釈性を提供する。
- 参考スコア(独自算出の注目度): 4.823644833140588
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language contrastive pretraining has become the dominant recipe for 3D medical foundation models, leveraging the large volumes of paired scans and reports produced in clinical practice. However, medical images usually span dozens of organs, and radiological reports are much longer than typical natural image captions and are composed of multiple structured sections. CLIP-style pretraining compresses this structure by encoding each modality into a single global token, at the risk of losing important details. We introduce ConQuer (Concept Queries), an image-text pretraining method that augments CLIP's global alignment with a set of localized alignments, one per concept. ConQuer splits the report into concept-specific sections and learns cross-attention queries that pool the matching image features without using any segmentation mask or spatial supervision. Contrastive learning is then applied independently for each concept. Concepts can be any unit of semantic localization; here, they are anatomical regions, one query per organ or gross body region. As a byproduct, each query learns attention maps focused on its concept, providing built-in spatial interpretability. We use ConQuer to train Jolia, a 3D CT foundation model on chest and abdominal CT. Jolia consistently outperforms a CLIP baseline on findings classification, report generation, and cross-center transfer, and sets a new state of the art across multiple public benchmarks. Jolia's weights will be released upon acceptance.
- Abstract(参考訳): 視覚言語による対照的な事前訓練が3次元医療基礎モデルの主流のレシピとなり、大量のペアスキャンと臨床実習で作成された報告を活用している。
しかし、医用画像は通常数十の臓器にまたがっており、放射線学的報告は通常の自然画像のキャプションよりもずっと長く、複数の構成された部分で構成されている。
CLIPスタイルの事前訓練は、各モダリティを単一のグローバルトークンに符号化することで、重要な詳細を失うリスクを負うことにより、この構造を圧縮する。
ConQuer(Concept Queries)は、CLIPのグローバルアライメントを、概念毎に1つずつ、ローカライズされたアライメントのセットで強化するイメージテキスト事前トレーニング手法である。
ConQuerはレポートを概念固有のセクションに分割し、セグメンテーションマスクや空間監視を使わずに、マッチングされたイメージ特徴をプールするクロスアテンションクエリを学習する。
コントラスト学習は各概念に対して独立して適用される。
概念は意味的ローカライゼーションの任意の単位であり、ここでは解剖学的領域、臓器ごとのクエリ、あるいは全身領域である。
副産物として、各クエリは、その概念に焦点をあてたアテンションマップを学習し、組込み空間解釈性を提供する。
胸部CTと腹部CTの3次元CT基盤モデルであるJoliaをトレーニングするためにConQuerを用いている。
Joliaは、発見分類、レポート生成、データセンタ間の転送において、CLIPベースラインを一貫して上回り、複数の公開ベンチマークにまたがって、新たな最先端を設定している。
ジョリアの体重は受理後に解放される。
関連論文リスト
- MedP-CLIP: Medical CLIP with Region-Aware Prompt Integration [22.87996664536728]
地域対応医療ビジョン言語モデル(VLM)であるMedP-CLIPを提案する。
我々は、精密に構築された大規模データセット上でモデルを事前訓練する。
実験により,MedP-CLIPは各種医療タスクにおいて,ベースライン法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-04-13T08:53:36Z) - Adapting Segment Anything Model 3 for Concept-Driven Lesion Segmentation in Medical Images: An Experimental Study [6.850135803678454]
病変の分節に対するSegment Anything Model 3 (SAM3) の体系的評価を行った。
11種類の病変を含む13のデータセットの実験では、SAM3が強い相互モダリティの一般化を実現することが示されている。
これらの結果は,スケーラブルで実用的な医用画像セグメンテーションのための概念ベース基盤モデルの可能性を強調した。
論文 参考訳(メタデータ) (2026-03-26T22:30:10Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Self-Supervised Alignment Learning for Medical Image Segmentation [26.114595114732644]
医用画像セグメンテーションのためのニューラルネットワークを事前学習するための,新たな自己教師付きアライメント学習フレームワークを提案する。
提案するフレームワークは,新たな局所的なアライメント損失とグローバルな位置損失から構成される。
実験の結果,提案したアライメント学習は,既存のCTおよびMRIデータセットの自己教師付き事前学習手法と競合することが示された。
論文 参考訳(メタデータ) (2024-06-22T00:47:39Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - CUTS: A Deep Learning and Topological Framework for Multigranular Unsupervised Medical Image Segmentation [8.307551496968156]
医用画像セグメンテーションのための教師なしディープラーニングフレームワークCUTSを提案する。
各画像に対して、画像内コントラスト学習と局所パッチ再構成による埋め込みマップを生成する。
CUTSは、様々な粒度の特徴をハイライトする粗い粒度のセグメンテーションを連続的に生成する。
論文 参考訳(メタデータ) (2022-09-23T01:09:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。