論文の概要: Geometry-Consistent Endoscopic Representations for Image-Guided Navigation via Structured Foundation Model Adaptation
- arxiv url: http://arxiv.org/abs/2606.17340v1
- Date: Mon, 15 Jun 2026 22:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.163576
- Title: Geometry-Consistent Endoscopic Representations for Image-Guided Navigation via Structured Foundation Model Adaptation
- Title(参考訳): 構造ファウンデーションモデル適応による画像誘導ナビゲーションのための幾何一貫性の内視鏡的表現
- Authors: Hongchao Shu, Roger D. Soberanis-Mukul, Hao Ding, Morgan Ringel, Mali Shen, Saif Iftekar Sayed, Hedyeh Rafii-Tari, Mathias Unberath,
- Abstract要約: そこで本研究では,モノクロ内視鏡のための幾何学一貫性および領域ローバスト画像表現を統一的に学習するためのフレームワークを提案する。
幾何学的および意味的表現の質が向上し、下流ナビゲーションタスクの性能が向上した。
これらの結果は,内視鏡的表現学習の実践的アプローチとして,階層的,幾何学的指導による適応を支援する。
- 参考スコア(独自算出の注目度): 7.175105815225476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate vision-based navigation in monocular endoscopy is difficult due to limited depth cues, weak tissue texture, non-rigid deformation, and substantial appearance variation across domains, all of which complicate pose estimation, depth prediction, and image-to-anatomy alignment. Although recent vision foundation models have shown promise, their learned representations often remain insufficiently geometry-consistent, hindering stable feature correspondence and limiting their reliability for downstream navigation tasks. We propose a unified framework for learning geometry-consistent and domain-robust image representations for monocular endoscopy. The framework combines a synthetic data pipeline that provides accurate geometric supervision with Hierarchy-Aware Geometry-Semantic Adaptation, a structured alternative to standard LoRA that inserts low-rank adapters selectively across the transformer hierarchy and couples them with layer-wise training objectives to encourage geometric correspondence in intermediate features and semantic consistency in deeper features. Experiments on public and proprietary datasets show improved geometric and semantic representation quality, leading to better performance on downstream navigation tasks including pose estimation and monocular depth estimation. The learned representations show favorable synthetic-to-real transfer on clinical bronchoscopy and provide a useful initialization for adaptation to sinus endoscopy and colonoscopy under limited supervision. The framework also shows favorable scaling with model size and training data. These results support hierarchy-aware, geometry-guided adaptation as a practical approach for endoscopic representation learning.
- Abstract(参考訳): 単眼内視鏡における正確な視線に基づくナビゲーションは, 深度, 組織テクスチャの弱さ, 非剛性変形, ドメイン間の実質的な外観変化などにより困難であり, それらすべてが複雑なポーズ推定, 深度予測, 画像と解剖のアライメントである。
近年のビジョン基盤モデルは将来性を示しているが、それらの学習された表現は幾何一貫性が不十分なままであり、安定した特徴対応を妨げ、下流のナビゲーションタスクの信頼性を制限している。
そこで本研究では,モノクロ内視鏡のための幾何学一貫性および領域ローバスト画像表現を統一的に学習するためのフレームワークを提案する。
このフレームワークは、階層構造を意識した幾何学的セマンティック適応(Hierarchy-Aware Geometry-Semantic Adaptation)と正確な幾何学的監視を提供する合成データパイプラインを組み合わせる。
パブリックおよびプロプライエタリなデータセットの実験では、幾何学的およびセマンティックな表現の質が向上し、ポーズ推定や単眼深度推定などの下流ナビゲーションタスクのパフォーマンスが向上した。
以上の結果から, 臨床気管支内視鏡の合成-現実的移行が良好であり, 副鼻腔内視鏡および大腸内視鏡への適応を限定的に行うのに有用であると考えられた。
フレームワークには、モデルのサイズやトレーニングデータによるスケーリングも適している。
これらの結果は,内視鏡的表現学習の実践的アプローチとして,階層的,幾何学的指導による適応を支援する。
関連論文リスト
- GeoMamba: A Geometry-driven MambaVision Framework and Dataset for Fine-grained Optical-SAR Object Retrieval [54.741349848771144]
GeoMambaは光学SAR微細検索のための幾何学駆動フレームワークである。
GFIモジュールは、クロスモーダルな機能相互作用を強化し、構造的な事前を組み込む。
GeoMambaは既存の手法を上回り、全検索環境で63.3% mAPと77.0% Rank-1の精度を達成した。
論文 参考訳(メタデータ) (2026-05-19T12:08:09Z) - CoGE: Sim-to-Real Online Geometric Estimation for Monocular Colonoscopy [6.215033656830097]
CoGEは、大腸内視鏡におけるオンライン単分子幾何推定のための新しいフレームワークである。
異なる大腸内視鏡シーンにおける照明の多様性に対処するために,照明対応監視モジュールを提案する。
大腸の共通な構造的特徴と局所的特徴を抽出する構造認識モジュールを提案する。
論文 参考訳(メタデータ) (2026-05-13T05:46:39Z) - Preoperative-to-intraoperative Liver Registration for Laparoscopic Surgery via Latent-Grounded Correspondence Constraints [51.7011449975586]
Land-Regは変形可能な登録フレームワークで、潜伏した2D-3Dのランドマーク対応を学習する。
厳格な登録のために、Land-Regはクロスモーダルラテントアライメントモジュールを採用している。
類似性マッチングを持つ不確実なオーバーラップランドマーク検出器を提案し, 明確な2D-3Dランドマーク対応を強く推定する。
論文 参考訳(メタデータ) (2026-03-02T10:44:03Z) - Self-Supervised Contrastive Embedding Adaptation for Endoscopic Image Matching [7.674595072442547]
本研究では,内視鏡画像対の特徴対応性を確立するための新しいディープラーニングパイプラインを提案する。
提案手法は、新しいビュー合成パイプラインを利用して、接地トルース不整合対応を生成する。
パイプラインはSCAREDデータセットの最先端手法を超越し,マッチング精度とエピポーラ誤差の低減を実現した。
論文 参考訳(メタデータ) (2025-12-11T07:44:00Z) - ColonAdapter: Geometry Estimation Through Foundation Model Adaptation for Colonoscopy [18.844097623387974]
単眼の大腸内視鏡像から3次元形状を推定することは、非ランベルト面、移動光源、大きなテクスチャのない領域のために困難である。
大腸内視鏡の幾何学的基礎モデルに適応する自己教師型微調整フレームワークであるColonAdapterを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:21:11Z) - BronchOpt : Vision-Based Pose Optimization with Fine-Tuned Foundation Models for Accurate Bronchoscopy Navigation [6.915058920280426]
術中内視鏡視と術前CT解剖の2D-3D登録のための視覚ベースのポーズ最適化フレームワークを提案する。
細調整されたモダリティおよびドメイン不変エンコーダは、実際の内視鏡的RGBフレームとCTレンダリング深度マップとの直接的な類似性を実現する。
本モデルでは, 平均翻訳誤差2.65mm, 回転誤差0.19radを実現し, 高精度かつ安定な局所化を示す。
論文 参考訳(メタデータ) (2025-11-12T15:58:05Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Generalizing monocular colonoscopy image depth estimation by uncertainty-based global and local fusion network [3.4419856649092746]
本研究の目的は,大腸内視鏡画像によく応用できる堅牢なフレームワークを開発することである。
本稿では,局所的な特徴を捉えるための畳み込みニューラルネットワーク(CNN)と,グローバルな情報を取得するためのトランスフォーマーを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T13:30:59Z) - ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation [67.22294293695255]
そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。
以上の結果から,本手法は実写および合成大腸内視鏡ビデオの深度マップを精度良く予測できることが示唆された。
論文 参考訳(メタデータ) (2024-07-23T14:24:26Z) - Bridging Synthetic and Real Images: a Transferable and Multiple
Consistency aided Fundus Image Enhancement Framework [61.74188977009786]
画像強調とドメイン適応を同時に行うために,エンドツーエンドの教師支援フレームワークを提案する。
また,教師ネットワークと学生ネットワークのバックボーンとして,マルチステージ型マルチアテンション・ガイド・エンハンスメント・ネットワーク(MAGE-Net)を提案する。
論文 参考訳(メタデータ) (2023-02-23T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。