論文の概要: 3D Masked Autoencoders are Robust Learners of Volumetric and Multimodal Cellular Representations for Microscopy
- arxiv url: http://arxiv.org/abs/2606.23964v1
- Date: Mon, 22 Jun 2026 21:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.695335
- Title: 3D Masked Autoencoders are Robust Learners of Volumetric and Multimodal Cellular Representations for Microscopy
- Title(参考訳): 3次元マスケオートエンコーダは、顕微鏡用ボリュームおよびマルチモーダルセル表現のロバスト学習者である
- Authors: Amirhossein Kardoost, Lion Gleiter, Tingying Peng, Carsten Marr,
- Abstract要約: 蛍光顕微鏡における自己教師付き学習は、しばしば2次元投影に依存している。
MAE-3Dは、下流シングルセルタスクにおいて、2次元最大投影とスライスに基づく変形を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 3.2257138792902125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning in fluorescence microscopy often relies on 2D projections, despite the inherently three-dimensional nature of cells. We present a systematic comparison of 2D and 3D masked autoencoders (MAE-2D vs. MAE-3D) on volumetric microscopy data. Under matched architectures and training protocols, MAE-3D consistently outperforms 2D max-projection and slice-based variants on downstream single-cell tasks. We further align visual representations with a pretrained protein language model (ESM2) and show that cross-modal supervision yields larger gains for volumetric models. Channel cross-attention and frequency-domain regularization are critical for leveraging 3D spatial context. On a protein--protein interaction task, MAE-3D achieves a ROC--AUC of 0.865, outperforming prior methods by up to +0.025. For protein localization, our best 3D model attains state-of-the-art AUC$_{\text{micro}}$ (0.952) and F1$_{\text{micro}}$ (0.742), improving over previous approaches by +0.003 and +0.010 absolute, respectively. Overall, these results demonstrate the advantages of native 3D modeling and multimodal alignment for representation learning in single-cell microscopy.
- Abstract(参考訳): 蛍光顕微鏡における自己教師付き学習は、細胞の本質的な3次元の性質にもかかわらず、しばしば2次元投影に依存している。
本研究では,2次元および3次元マスク付きオートエンコーダ(MAE-2D vs. MAE-3D)の体積顕微鏡データに対する系統的比較を行った。
一致したアーキテクチャとトレーニングプロトコルの下では、MAE-3Dは下流のシングルセルタスクにおいて、2Dの最大射影とスライスベースの変形よりも一貫して優れていた。
さらに、視覚表現を事前訓練されたタンパク質言語モデル(ESM2)と整合させ、クロスモーダル・インスペクションがボリュームモデルに大きな利益をもたらすことを示す。
チャネルのクロスアテンションと周波数領域の正規化は3次元空間コンテキストの活用に不可欠である。
タンパク質-タンパク質相互作用のタスクでは、MAE-3Dは0.865のROC-AUCを達成する。
タンパク質の局在化には、最先端の AUC$_{\text{micro}}$ (0.952) と F1$_{\text{micro}}$ (0.742) が得られ、それぞれ+0.003 と +0.010 のアプローチよりも改善されている。
これらの結果は、単一セル顕微鏡における表現学習におけるネイティブ3次元モデリングとマルチモーダルアライメントの利点を示している。
関連論文リスト
- Halfway to 3D: Ensembling 2.5D and 3D Models for Robust COVID-19 CT Diagnosis [5.645096759437525]
胸部CT画像から新型コロナウイルス検出・疾患分類を行うための深層学習フレームワークを提案する。
このフレームワークは2.5Dと3Dの両方の表現を統合し、補完的なスライスレベルとボリューム情報をキャプチャする。
PHAROS-AIF-MIHベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-16T05:24:10Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。