論文の概要: CheXanatomy: Anatomy-Aware Vision-Language Modeling for Chest Radiographs
- arxiv url: http://arxiv.org/abs/2606.08420v1
- Date: Sun, 07 Jun 2026 02:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.098104
- Title: CheXanatomy: Anatomy-Aware Vision-Language Modeling for Chest Radiographs
- Title(参考訳): CheXanatomy:胸部X線写真のための解剖学的視覚・言語モデリング
- Authors: Sergios Gatidis, Curtis Langlotz, Christian Bluethgen,
- Abstract要約: CheXanatomyは、明示的な解剖学的知識を事前訓練された視覚言語モデルに統合するフレームワークである。
拡張性のある監視を実現するため,CTボリュームと前方プロジェクションCTセグメンテーションラベルからリアルな胸部X線像を合成する。
モデルスケール,入力解像度,視覚エンコーダの微調整など,U-Netベースラインに対する合成および実胸部X線写真へのアプローチを評価した。
- 参考スコア(独自算出の注目度): 3.369056928100267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) pretrained on large-scale image-text pairs demonstrate strong image-level understanding, but are primarily optimized for global alignment and do not explicitly encode fine-grained anatomical structure, limiting their suitability for spatially precise tasks such as segmentation. We introduce CheXanatomy, a framework that integrates explicit anatomical knowledge into a pretrained VLM through autoregressive token-space supervision. Instead of adding task-specific decoder heads, the model is trained to generate anatomical segmentation masks via next-token prediction. To enable scalable supervision, we synthesize realistic chest radiographs from CT volumes and forward-project CT segmentation labels to obtain anatomically consistent 2D masks. We evaluate the approach on synthetic and real chest radiographs against a U-Net baseline, including ablations on model scale, input resolution, and vision encoder fine-tuning. Autoregressive anatomical supervision achieves performance comparable to specialized convolutional models in-distribution and demonstrates improved geometric robustness under domain shift to real CXR data. In addition, anatomy-pretrained models exhibit improved sample efficiency when adapting to novel localization tasks under limited supervision. Larger models and higher input image resolution improve performance, while vision encoder fine-tuning has limited effect. These results show that embedding anatomical structure directly into the generative objective promotes spatially grounded representations and supports anatomy-aware medical vision-language modeling.
- Abstract(参考訳): 大規模画像テキストペアで事前訓練された視覚言語モデル(VLM)は、画像レベルの理解が強いが、主に大域的なアライメントに最適化されており、きめ細かな解剖構造を明示的にコード化せず、セグメンテーションのような空間的精密なタスクに適合する可能性を制限する。
自己回帰的なトークン空間の監視を通じて、明示的な解剖学的知識を事前訓練されたVLMに統合するフレームワークであるCheXanatomyを紹介する。
タスク固有のデコーダヘッドを追加する代わりに、モデルは次のトーケン予測を通じて解剖学的セグメンテーションマスクを生成するように訓練される。
拡張性のある監視を実現するため,CTボリュームと前方プロジェクションCTセグメンテーションラベルからリアルな胸部X線像を合成し,解剖学的に一貫した2Dマスクを得る。
モデルスケール,入力解像度,視覚エンコーダの微調整など,U-Netベースラインに対する合成および実胸部X線写真へのアプローチを評価した。
自己回帰的解剖学的監督は、分散における特殊畳み込みモデルに匹敵する性能を達成し、実際のCXRデータへのドメインシフトの下での幾何的堅牢性の向上を実証する。
さらに、解剖予知モデルでは、限られた監督下での新規なローカライゼーションタスクに適応する際のサンプル効率が向上した。
より大きなモデルと高い入力画像解像度により性能が向上する一方、視覚エンコーダの微調整は限られた効果を有する。
これらの結果から, 解剖学的構造を直接生成対象に組み込むことは, 空間的接地表現を促進し, 解剖学的視覚言語モデリングを支援することが示唆された。
関連論文リスト
- Anatomy-Anchored Self-Supervision: Distilling Vision Foundation Models for Invariant Ultrasound Representation [29.61647712180762]
自己指導型事前訓練パラダイムは, 医用画像における伝達可能な表現の学習において, 優位性を高めている。
一般的な視覚領域から臨床的に有意な解剖構造へ表現学習を移行させる解剖学的アンコール超音波自己監督フレームワークANAUSを提案する。
論文 参考訳(メタデータ) (2026-05-25T03:52:58Z) - LGESynthNet: Controlled Scar Synthesis for Improved Scar Segmentation in Cardiac LGE-MRI Imaging [21.180056139848528]
制御可能な拡張合成のための遅延拡散に基づくフレームワークであるLGE SynthNetを紹介する。
a)条件特定監督のための報酬モデル、(b)記述的テキストプロンプトのためのキャプションモジュール、(c)生体医学的テキストエンコーダ。
たった429枚の画像(79人の患者)で訓練され、解剖学的に一貫性のあるサンプルを生成する。
論文 参考訳(メタデータ) (2026-03-18T23:40:33Z) - X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography [89.84588038174721]
Computed Tomographyは臨床において必須のツールであり、内部解剖学的構造を非侵襲的に可視化する。
既存のCT再構成作業は、小さなキャパシティモデルアーキテクチャと非フレキシブルボリューム表現に限られている。
スパースビュー2次元X線プロジェクションから3次元CTボリュームを再構成する大規模なフィードフォワードモデルであるX-GRMを提案する。
論文 参考訳(メタデータ) (2025-05-21T08:14:10Z) - PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Anatomically-Controllable Medical Image Generation with Segmentation-Guided Diffusion Models [11.835841459200632]
解剖学的に制御可能な医用画像生成を支援する拡散モデルに基づく手法を提案する。
また, ランダムマスクアブレーショントレーニングアルゴリズムを導入し, 解剖学的制約の組合せの条件付けを可能にする。
SegGuidedDiffは、生成した画像の忠実さを新たな最先端に到達して、解剖学的マスクを入力します。
論文 参考訳(メタデータ) (2024-02-07T19:35:09Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。