論文の概要: DINO-Med3D: Bridging Dimension and Domain Gaps in Volumetric Segmentation via Progressive Adaptation
- arxiv url: http://arxiv.org/abs/2606.18886v1
- Date: Wed, 17 Jun 2026 10:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.108135
- Title: DINO-Med3D: Bridging Dimension and Domain Gaps in Volumetric Segmentation via Progressive Adaptation
- Title(参考訳): DINO-Med3D:プログレッシブ適応によるボリュームセグメンテーションにおけるブリッジング次元と領域ギャップ
- Authors: Haoyu Hu, Xiyao Ma, Shiqi Liu, Linsen Zhang, Xiaoliang Xie, Xiaohu Zhou, Zeng-Guang Hou,
- Abstract要約: 本稿では,DINOv3エンコーダを用いた2段階プログレッシブ・フレームワークを提案する。
第1段階では,擬似3Dコンテキストを組み込んだマルチスライス埋め込みモジュールを導入することにより,次元ギャップを緩和する。
凍結したバックボーンに軽量な3Dアダプタを追加して,グローバルなスライス間連続性を実現することにより,ボリューム理解をさらに強化する。
- 参考スコア(独自算出の注目度): 11.868652595119746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although DINOv3 has demonstrated remarkable semantic discrimination in natural imagery, its direct application to volumetric medical segmentation is hindered by inherent dimension and domain disparities. To resolve these issues, we propose DINO-Med3D, a two-stage progressive framework that repurpose the pre-trained DINOv3 encoder for 3D medical tasks. In the first stage, we mitigate the dimension gap by introducing a multi-slice embedding module that incorporates pseudo-3D context, while simultaneously employing a segmentation proxy task to adapt representations learned from natural scenes to the medical domain. Subsequently, we further enhance volumetric understanding by adding lightweight 3D adapters into the frozen backbone to enforce global inter-slice continuity. Finally, to compensate for the spatial information loss inherent in the embedding process, we design a parallel detail recovery stream to explicitly preserve high-frequency boundary cues. Extensive experiments on five public datasets demonstrate that our approach successfully adapts DINOv3 to the medical domain and significantly outperforms state-of-the-art baselines.
- Abstract(参考訳): DINOv3は、自然画像において顕著な意味的識別を示してきたが、体積医学的セグメンテーションへの直接的応用は、固有の次元と領域の違いによって妨げられている。
そこで我々は,DINO-Med3Dを提案する。DINO-Med3Dは,事前学習したDINOv3エンコーダを応用した2段階プログレッシブフレームワークである。
最初の段階では、擬似3Dコンテキストを組み込んだマルチスライス埋め込みモジュールを導入し、また、自然なシーンから学んだ表現を医療領域に適応させるセグメンテーションプロキシタスクを同時に導入することにより、次元ギャップを緩和する。
その後、凍結したバックボーンに軽量な3Dアダプタを追加して、グローバルなスライス間連続性を強制することにより、ボリューム理解をさらに強化する。
最後に,埋め込み過程に固有の空間情報損失を補うために,高周波数境界列を明示的に保存する並列詳細回復ストリームを設計する。
5つの公開データセットに対する大規模な実験は、我々のアプローチがDINOv3を医療領域に適応し、最先端のベースラインを大幅に上回っていることを示している。
関連論文リスト
- Structure-Adaptive Sparse Diffusion in Voxel Space for 3D Medical Image Enhancement [10.028882244604809]
3次元3D画像強調は,CT,PET,MRIの診断において重要である。
そこで本研究では,一様サブサンプリングタイムステップのコンパクトなセット上で,サンプルをトレーニングし,サンプルをサンプル化する,スパースボクセル空間拡散フレームワークを提案する。
我々のフレームワークは、圧縮を損なわずに微細な解剖学的詳細を保存しつつ、最大10倍のトレーニングアクセラレーションを実現している。
論文 参考訳(メタデータ) (2026-04-20T03:52:49Z) - MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - Preoperative-to-intraoperative Liver Registration for Laparoscopic Surgery via Latent-Grounded Correspondence Constraints [51.7011449975586]
Land-Regは変形可能な登録フレームワークで、潜伏した2D-3Dのランドマーク対応を学習する。
厳格な登録のために、Land-Regはクロスモーダルラテントアライメントモジュールを採用している。
類似性マッチングを持つ不確実なオーバーラップランドマーク検出器を提案し, 明確な2D-3Dランドマーク対応を強く推定する。
論文 参考訳(メタデータ) (2026-03-02T10:44:03Z) - Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images [3.186130813218338]
グローバルMRIボリュームは、重複しない3Dウィンドウまたはサブキューブに分解され、それぞれが凍結した高忠実度機能の上に構築された別個のデコードアームを介して処理される。
提案手法は、1つの3Dウィンドウに対してDiceスコア0.65を達成する。
論文 参考訳(メタデータ) (2026-02-27T12:16:21Z) - Improving 3D Medical Image Segmentation at Boundary Regions using Local Self-attention and Global Volume Mixing [14.0825980706386]
ボリューム・メディカル・イメージ・セグメンテーションは、与えられた3次元ボリューム・メディカル・イメージをボクセルレベルの精度で正確に分類することを目的とする医用画像解析の基本的な問題である。
本研究では,3次元医用画像セグメンテーションにおける局所的およびグローバルな依存関係を明示的に捉えることを目的とした,階層型エンコーダデコーダベースの新しいフレームワークを提案する。
提案フレームワークは,局所的なボリュームベースの自己アテンションを利用して局所的な依存関係を高解像度でエンコードし,低解像度の特徴表現でグローバルな依存関係をキャプチャする新しいボリュームミキサを導入する。
論文 参考訳(メタデータ) (2024-10-20T11:08:38Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - Volumetric Medical Image Segmentation: A 3D Deep Coarse-to-fine
Framework and Its Adversarial Examples [74.92488215859991]
本稿では,これらの課題に効果的に取り組むために,新しい3Dベースの粗粒度フレームワークを提案する。
提案した3Dベースのフレームワークは、3つの軸すべてに沿ってリッチな空間情報を活用できるため、2Dよりも大きなマージンで優れている。
我々は,3つのデータセット,NIH膵データセット,JHMI膵データセット,JHMI病理嚢胞データセットについて実験を行った。
論文 参考訳(メタデータ) (2020-10-29T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。