Fugu-MT 論文翻訳(概要): Surgical Anatomy Recognition with Context Learning using Foundation Representations

論文の概要: Surgical Anatomy Recognition with Context Learning using Foundation Representations

arxiv url: http://arxiv.org/abs/2606.22124v1
Date: Sat, 20 Jun 2026 16:05:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 22:44:37.000287
Title: Surgical Anatomy Recognition with Context Learning using Foundation Representations
Title（参考訳）: 基礎表現を用いた文脈学習による手術解剖学的認識
Authors: Ronald L. P. D. de Jong, Tim J. M. Jaspers, Raf A. H. Vervoort, Aron F. H. A. Bakker, Yiping Li, Jip L. Tolenaar, Jelle P. Ruurda, Willem M. Brinkman, Josien P. W. Pluim, Marcel Breeuwer, Daan de Geus, Fons van der Sommen,
Abstract要約: 解剖学的構造の正確な認識は、安全かつ効果的な最小侵襲手術(MIS)に不可欠である我々は,MISにおける解剖学的認識を促進するために,データセットとモデルを組み合わせたフレームワークを提案する。
参考スコア（独自算出の注目度）: 9.888703668362641
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate recognition of anatomical structures is essential for safe and effective minimally invasive surgery (MIS), yet it remains underexplored in surgical computer vision due to limited annotated data and methods tailored primarily to natural scenes. In this work, we present a combined dataset and model framework to advance anatomy-aware perception in MIS. First, we introduce ATLAS-120k, a large-scale clip-level semantic segmentation dataset comprising over 120,000 annotated frames from 100 surgical videos spanning 14 procedures and multiple modalities, including laparoscopic and robot-assisted surgery. The dataset captures substantial procedural variability and was created using a scalable annotation pipeline that integrates expert manual labeling, automated propagation, iterative refinement, and surgeon verification to ensure high-quality annotations. Second, we propose ATLAS (Anatomy Recognition with Context Learning using Foundation Representations), a video semantic segmentation model specifically designed for surgical anatomy recognition. Unlike conventional approaches that emphasize object tracking, ATLAS leverages foundation-model embeddings together with lightweight temporal reasoning to incorporate contextual cues such as procedure type, surgical phase, and short-term visual memory. This design enables temporally consistent and accurate predictions while maintaining real-time feasibility. Together, the dataset and model establish a practical foundation for robust surgical scene understanding and support the development of clinically applicable guidance systems for minimally invasive surgery. The models, dataset annotations and annotation platform are publicly available at: https://github.com/TimJaspers0801/ATLAS.
Abstract（参考訳）: 解剖学的構造の正確な認識は、安全かつ効果的な最小侵襲手術(MIS)には不可欠であるが、主に自然の場面に合わせた注釈付きデータや方法が限定されているため、外科的コンピュータビジョンでは未発見のままである。本研究では,MISにおける解剖学的認識を促進するためのデータセットとモデルフレームワークについて述べる。まず,大容量のクリップレベルのセマンティックセグメンテーションデータセットであるATLAS-120kを紹介した。データセットはかなりの手続き的変動を捉え、スケーラブルなアノテーションパイプラインを使用して作成され、熟練した手動ラベリング、自動伝搬、反復的改善、外科医による検証を統合して、高品質なアノテーションを保証する。第2に,外科的解剖学的認識に特化して設計されたビデオセマンティックセグメンテーションモデルであるATLAS(Atatomy Recognition with Context Learning using Foundation Representations)を提案する。オブジェクト追跡を強調する従来のアプローチとは異なり、ATLASは、プロシージャタイプ、手術フェーズ、短期視覚記憶などの文脈的手がかりを組み込むために、基礎モデル埋め込みと軽量な時間的推論を併用する。この設計は、リアルタイムの実現可能性を維持しながら、時間的に一貫性があり正確な予測を可能にする。このデータセットとモデルは、堅牢な手術シーン理解のための実践的基盤を確立し、最小侵襲手術のための臨床応用ガイダンスシステムの開発を支援する。モデル、データセットアノテーション、アノテーションプラットフォームは、https://github.com/TimJaspers0801/ATLASで公開されている。

関連論文リスト

Scaling Video Pretraining for Surgical Foundation Models [51.92777479821822]
SurgRecは、スケーラブルで再現可能な、外科的ビデオ理解のための事前学習のレシピだ。内視鏡,腹腔鏡,白内障,ロボット手術を対象とする10,535ビデオと214.5Mフレームの大規模なコーパスをキュレートした。
論文参考訳（メタデータ） (2026-03-31T16:31:25Z)
Cataract-LMM: Large-Scale, Multi-Source, Multi-Task Benchmark for Deep Learning in Surgical Video Analysis [4.318540086708654]
2つの手術センターから3000個の白内障手術ビデオのデータセットを作成した。このリソースには、時間的外科的フェーズ、機器と解剖学的構造のインスタンスセグメンテーション、機器間の相互作用の追跡、定量的スキルスコアの4つのアノテーション層がある。データセットの技術的品質は、重要な外科的AIタスクのための一連のベンチマーク実験によってサポートされている。
論文参考訳（メタデータ） (2025-10-18T06:48:29Z)
Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。 SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文参考訳（メタデータ） (2025-09-30T08:59:06Z)
Data-Efficient Learning for Generalizable Surgical Video Understanding [0.0]
本研究は, 深層学習に基づく外科的ビデオ解析と実世界の臨床環境とのギャップを埋めることを目的としている。私は最先端のニューラルネットワークアーキテクチャをベンチマークして、各タスクの最も効果的な設計を特定しました。我々は,大量の未ラベルの手術ビデオを活用することにより,タスク間のモデル性能を向上させる半駆動型フレームワークを開発した。
論文参考訳（メタデータ） (2025-08-13T22:00:23Z)
Semantic Segmentation for Preoperative Planning in Transcatheter Aortic Valve Replacement [61.573750959726475]
経カテーテル大動脈弁置換術(TAVR)の術前計画のための医療ガイドラインを考察し,セマンティックセグメンテーションモデルを用いて支援できる課題を同定する。まず, 細粒度のTAVR関連擬似ラベルを, 粗粒度の解剖学的情報から抽出し, セグメンテーションモデルを訓練し, スキャンでこれらの構造がどれだけよく見つかるかを定量化する。
論文参考訳（メタデータ） (2025-07-22T13:24:45Z)
Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。 SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文参考訳（メタデータ） (2025-06-03T09:42:54Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
SASVi - Segment Any Surgical Video [2.330834737588252]
本研究では,フレームワイズMask R-CNN Overseerモデルに基づく新しい再プロンプト機構であるSASViを提案する。このモデルは、シーンの星座が変化すると、基盤モデルSAM2を自動で再起動する。
論文参考訳（メタデータ） (2025-02-12T00:29:41Z)
TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation [2.9776992449863613]
現在のビデオ分析は、手作業によるインデックス作成に依存している。 TEMSET-24Kは,経肛門的内視鏡的マイクロサマリー(TEMS)ビデオマイクロクリップからなるオープンソースデータセットである。各クリップは、新しい階層的ラベリング分類を用いて、臨床専門家によって慎重に注釈付けされる。
論文参考訳（メタデータ） (2025-02-10T17:37:34Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。