論文の概要: Gaussian Process Prior Variational Autoencoder for Endoscopic Videos
- arxiv url: http://arxiv.org/abs/2606.19908v1
- Date: Thu, 18 Jun 2026 08:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.718214
- Title: Gaussian Process Prior Variational Autoencoder for Endoscopic Videos
- Title(参考訳): 内視鏡ビデオ用変分オートエンコーダのガウス過程
- Authors: Ivan De Boi, Xinxing Shi, Xiaoyu Jiang, Tim J. M. Jaspers, Francisco Caetano, Mauricio A. Alvarez, Fons van der Sommen, Sam Van der Jeught,
- Abstract要約: ビデオシーケンスは、スペックリフレクション、モーションアーティファクト、欠落フレームによって定期的に劣化する。
内視鏡的ビデオ修復のためのGPVAE(Gaussian Process Prior Variational Autoencoder)フレームワークを提案する。
C3VDv2の大腸内視鏡データセットでは、最高のGPVAE変種は画像再構成RMSEを平均21.9%削減した。
- 参考スコア(独自算出の注目度): 6.831828660437534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Endoscopic video analysis is essential for gastrointestinal diagnosis and computer-assisted interventions, but video sequences are routinely degraded by specular reflections, motion artifacts, and missing frames. These transient corruptions can distract clinicians, reduce image interpretability, and disrupt downstream tasks such as 3D reconstruction and navigation. Effective restoration therefore requires methods that exploit temporal continuity rather than treating frames in isolation. We introduce a Gaussian Process Prior Variational Autoencoder (GPVAE) framework for endoscopic video restoration that replaces the standard factorized latent prior with a temporal Gaussian process prior, enabling interpolation of missing frames with uncertainty-aware reconstruction. The framework combines endoscopy-specific encoders, including a convolutional EndoVAE backbone and pretrained Vision Transformer encoders from GastroNet-5M, with two scalable GP approximations: Hierarchical Prior Approximation (HPA) and Sparse Precision Approximation (SPA). Specular reflections are handled using a DUCKNet-based masking pipeline that excludes corrupted pixels from the reconstruction objective. On the C3VDv2 colonoscopy dataset, the best GPVAE variants reduced image reconstruction RMSE by 21.9\% on average, and by up to 26.1\%, relative to matched VAE baselines. Downstream trajectory RMSE was reduced by 12.7\% on average across classical visual odometry and a pretrained PoseNet, at an average increase of 27.3\% in training time per epoch. Finally, the GP posterior provides per-frame uncertainty estimates that reflect temporal support and offer a confidence signal for restored frames.
- Abstract(参考訳): 内視鏡的ビデオ解析は消化管の診断とコンピュータ支援の介入に不可欠であるが、ビデオシーケンスはスペックル反射、モーションアーティファクト、欠落フレームによって日常的に劣化する。
これらの過渡的な汚職は、臨床医の気を散らし、画像の解釈性を低下させ、3D再構成やナビゲーションのような下流のタスクを妨害する。
したがって、効果的な復元にはフレームを単独で扱うのではなく、時間的連続性を利用する方法が必要である。
本稿では,前向きの時間的ガウス過程に置き換え,不確実性を考慮したフレームの補間を可能にする,内視鏡的ビデオ修復のためのGPVAE(Gaussian Process Prior Variational Autoencoder)フレームワークを提案する。
このフレームワークは、コンボリューショナルなEndoVAEバックボーンとガストロネット5Mからの事前訓練されたVision Transformerエンコーダを含む内視鏡固有のエンコーダと、階層的事前近似(HPA)とスパース精度近似(SPA)という2つのスケーラブルなGP近似を組み合わせたものである。
スペクトル反射はDUCKNetベースのマスキングパイプラインを用いて処理される。
C3VDv2の大腸内視鏡データセットでは、最も優れたGPVAE変種は、画像再構成RMSEを平均21.9\%、一致するVAEベースラインと比較して26.1\%削減した。
下流軌道RMSEは、古典的な視覚計測と事前訓練されたPoseNetで平均12.7\%減少し、平均27.3\%増加した。
最後に、GP後部は、時間的支持を反映したフレーム毎の不確実性推定を提供し、復元されたフレームに対する信頼信号を提供する。
関連論文リスト
- Uncertainty-quantified Pulse Signal Recovery from Facial Video using Regularized Stochastic Interpolants [32.782480100477976]
フォトプレチスモグラフィ(Photoplethysmography)は、カメラからの画素読み出しを用いてヒトの血液量パルス(BVP)波形を復元する光学的手順である。
iタスクを解決するための現在のアルゴリズムは、優れたパフォーマンスベンチマークデータセットを示している。
最先端のアルゴリズムや、私たちの知識を最大限に活用するベクトルは、ソリューション空間の試験時間サンプリングを実行しません。
論文 参考訳(メタデータ) (2026-04-12T19:00:49Z) - Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation [3.7585770539752104]
プライマリ・ヘルス・ケアは、しばしば安価な撮像装置に頼っている。
このようなアルゴリズムは、ドメイン固有の事前知識を組み込んだ反復的再構成手法を用いるのが一般的である。
凍結下流ネットワークの正規化層パラメータを適応させることにより,これらの中間表現をテスト時に活用するIRTTAを提案する。
論文 参考訳(メタデータ) (2026-03-05T10:48:37Z) - SFP: Real-World Scene Recovery Using Spatial and Frequency Priors [84.27251794411673]
シーンリカバリは様々なコンピュータビジョンアプリケーションにとって重要なタスクである。
本研究では,現実のシーンを再現するための空間的・周波数的優先度(SFP)を提案する。
論文 参考訳(メタデータ) (2025-12-09T05:24:25Z) - BronchOpt : Vision-Based Pose Optimization with Fine-Tuned Foundation Models for Accurate Bronchoscopy Navigation [6.915058920280426]
術中内視鏡視と術前CT解剖の2D-3D登録のための視覚ベースのポーズ最適化フレームワークを提案する。
細調整されたモダリティおよびドメイン不変エンコーダは、実際の内視鏡的RGBフレームとCTレンダリング深度マップとの直接的な類似性を実現する。
本モデルでは, 平均翻訳誤差2.65mm, 回転誤差0.19radを実現し, 高精度かつ安定な局所化を示す。
論文 参考訳(メタデータ) (2025-11-12T15:58:05Z) - Accelerating 3D Photoacoustic Computed Tomography with End-to-End Physics-Aware Neural Operators [74.65171736966131]
光音響計算トモグラフィ(PACT)は、光コントラストと超音波分解能を組み合わせることで、光拡散限界を超える深部像を実現する。
現在の実装では、高密度トランスデューサアレイと長い取得時間を必要とし、臨床翻訳を制限している。
本研究では,センサ計測からボリューム再構成まで,逆音響マッピングを直接学習する物理認識モデルであるPanoを紹介する。
論文 参考訳(メタデータ) (2025-09-11T23:12:55Z) - TPA: Temporal Prompt Alignment for Fetal Congenital Heart Defect Classification [2.3974223785103166]
超音波ビデオにおける先天性心不全(CHD)の検出は、画像ノイズとプローブ位置決めのばらつきによって妨げられる。
本稿では,基礎画像テキストモデルとプロンプト認識型コントラスト学習を利用したテンポラル・プロンプトアライメント(TPA)を提案する。
TPAは、画像エンコーダを使用してビデオサブクリップの各フレームから特徴を抽出し、訓練可能な時間抽出器でそれらを集約し、ビデオ表現をクラス固有のテキストプロンプトと整合させる。
論文 参考訳(メタデータ) (2025-08-21T06:36:47Z) - Focus on Texture: Rethinking Pre-training in Masked Autoencoders for Medical Image Classification [6.641920678512381]
Masked Autoencoders (MAEs) は自然画像における自己教師型表現学習の主流の戦略として登場した。
マッチング型GLCMに基づく再構成損失を用いた新しい事前学習フレームワークGLCM-MAEを提案する。
GLCM-MAEは4つのタスクで現在の最先端よりも優れています。
論文 参考訳(メタデータ) (2025-07-15T00:12:26Z) - APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。
本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文 参考訳(メタデータ) (2025-04-03T11:48:56Z) - Pathology Image Compression with Pre-trained Autoencoders [52.208181380986524]
デジタル病理学における全スライド画像は、記憶、伝達、計算効率の面で大きな課題をもたらす。
JPEGのような標準的な圧縮手法はファイルサイズを小さくするが、下流のタスクに不可欠な微細な表現型の詳細を保存できない。
本研究では,遅延拡散モデル用に設計されたオートエンコーダ(AE)を,病理画像の効率的な学習圧縮フレームワークとして再利用する。
論文 参考訳(メタデータ) (2025-03-14T17:01:17Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。