論文の概要: BrainG3N: A Dual-Purpose Tokenizer for Controllable 3D Brain MRI Generation
- arxiv url: http://arxiv.org/abs/2606.19651v1
- Date: Wed, 17 Jun 2026 23:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.578146
- Title: BrainG3N: A Dual-Purpose Tokenizer for Controllable 3D Brain MRI Generation
- Title(参考訳): BrainG3N: 制御可能な3次元脳MRI生成のための二重目的トケナイザ
- Authors: Max Van Puyvelde, Ibrahim Gulluk, Wim Van Criekinge, Olivier Gevaert,
- Abstract要約: 本稿では,3次元脳MRI潜伏拡散,デカップリングエンコーダ,デコーダのための全容積マスク付きオートエンコーダベースのトークン化器を提案する。
凍結した3D MAEエンコーダは臨床的に有益な埋め込みを生成し、専用のCNNデコーダはそれらの埋め込みの線形投影からボクセルを再構成する。
このエンコーダは,4つのモダリティ,10の疾患カテゴリ,200以上の取得部位にまたがる18の公的なコホートから35,309巻の事前訓練を行った。
- 参考スコア(独自算出の注目度): 0.8463322951417357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Three-dimensional (3D) brain MRI is central to clinical neurology and neuro-oncology, where generative models could augment under-represented cohorts, simulate disease trajectories, and support privacy-preserving data sharing. Latent diffusion has been the go-to solution for modeling imaging data, but it places two competing demands on the tokenizer: encoder embeddings must retain the clinical information that downstream tasks act on, and the decoder must reconstruct anatomically faithful volumes. Existing reconstruction-driven tokenizers achieve the second at the expense of the first. To address this, we introduce a fully volumetric masked-autoencoder (MAE) based tokenizer for 3D brain MRI latent diffusion, decoupling encoder and decoder: a frozen 3D MAE encoder produces clinically informative embeddings, while a dedicated CNN decoder reconstructs voxels from a linear projection of those embeddings. We pretrain the encoder on 35,309 volumes from 18 public cohorts spanning four modalities, ten disease categories, and 200+ acquisition sites, and demonstrate its dual utility in two settings. First, on a 23-task linear-probing benchmark, the encoder outperforms or matches SOTA models (i.e., BrainIAC, BrainSegFounder, and MedicalNet) on 21 of 23 tasks. Second, a conditional diffusion transformer (DiT) trained on these clinically informative embeddings supports both conditional generation across six variables and patient-specific longitudinal forecasting. Together these results establish a single 3D brain-MRI embedding space capable of both downstream clinical tasks and controllable generation.
- Abstract(参考訳): 3次元脳MRIは、臨床神経学と神経腫瘍学の中心であり、生成モデルは、表現されていないコホートを増強し、疾患の軌跡をシミュレートし、プライバシー保護データ共有をサポートする。
エンコーダの埋め込みは、下流のタスクが行う臨床情報を保持し、デコーダは解剖学的に忠実なボリュームを再構築しなければならない。
既存のリコンストラクション駆動型トークン化器は、第1を犠牲にして第2を達成している。
そこで本研究では,3次元脳MRI遅延拡散,デカップリングエンコーダ,デコーダのための完全容積マスク式オートエンコーダ(MAE)ベースのトークンーザを導入し,凍結した3次元MAEエンコーダが臨床的に情報伝達可能な埋め込みを生成し,専用のCNNデコーダがそれらの埋め込みの線形投影からボクセルを再構成する。
このエンコーダは,4つのモダリティ,10の疾患カテゴリ,200以上の取得部位にまたがる18の公的なコホートから35,309巻の事前訓練を行い,2つの設定でその二重効用を実証した。
まず、23タスクの21タスクのうち、23タスクのうち、エンコーダはSOTAモデル(BrainIAC、BrainSegFounder、MessicalNet)より優れるか、あるいは適合する。
第2に、6変数にわたる条件生成と患者固有の縦断予測の両方をサポートする条件拡散変圧器(DiT)が臨床に有用な埋め込みを訓練した。
これらの結果は、下流の臨床的タスクと制御可能な生成の両方が可能な単一の3次元脳-MRI埋め込み空間を確立する。
関連論文リスト
- Modality-Aware and Anatomical Vector-Quantized Autoencoding for Multimodal Brain MRI [15.657081811594418]
マルチモーダル脳MRIの再構成のためのVQ-VAE(Modality-Aware 3D vector-quantized VAE)を提案する。
NeuroQuantは、既存のVAEよりも優れた再構成忠実性を達成する。
論文 参考訳(メタデータ) (2026-04-06T21:07:34Z) - MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D [12.151255989796363]
textbfBrain3Dは3次元脳腫瘍MRIから自動放射線診断レポートを生成するための視覚言語フレームワークである。
textbfBrain3Dは、半球側方性、腫瘍浸潤パターン、解剖学的局在が重要である神経放射線学に適合している。
論文 参考訳(メタデータ) (2026-02-25T16:46:45Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - Towards Generalisable Foundation Models for 3D Brain MRI [5.527537739064968]
我々は、DINO-v2を拡張することで構築された脳MRIのための自己教師型基礎モデルBrainFoundを紹介する。
BrainFoundはDINO-v2を、シーケンシャルMRIスライスからの情報を取り込むことで、完全な3D脳解剖学をモデル化する。
シングルモーダル入力とマルチモーダル入力の両方をサポートし、疾患検出やイメージセグメンテーションなど、幅広い下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-10-27T15:19:46Z) - Voxel-Level Brain States Prediction Using Swin Transformer [65.9194533414066]
本稿では, 4D Shifted Window (Swin) Transformer をエンコーダとして用い, 時間的情報を効率よく学習し, 畳み込みデコーダを用いて入力fMRIデータと同じ空間的, 時間的解像度で脳状態の予測を可能にするアーキテクチャを提案する。
前回の23.04s fMRI時系列に基づいて7.2sの安静時脳活動を予測すると,高い精度が得られた。
これは、人間の脳の時間的構造が高解像度でSwin Transformerモデルによって学習できることを示す有望な証拠である。
論文 参考訳(メタデータ) (2025-06-13T04:14:38Z) - CodeBrain: Imputing Any Brain MRI via Modality- and Instance-Specific Codes [39.308423499912806]
統合脳MRIのためのパイプラインであるCodeBrainを提案する。
第一段階では、CodeBrainは、各インスタンスとモダリティのコンパクトなスカラー量子化コードを学ぶことによって、ターゲットのモダリティを再構築する。
第2段階では、プロジェクションエンコーダが訓練され、不完全なMRIサンプルから全モードのコンパクトコードを予測する。
論文 参考訳(メタデータ) (2025-01-30T13:14:40Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - 3D-TransUNet for Brain Metastases Segmentation in the BraTS2023 Challenge [33.755429154724546]
我々は,脳腫瘍(BraTS-METS)2023チャレンジにおける3D-TransUNetモデルのトレーニングによって脳転移のセグメンテーションに対処する。
Decoderのみの3D-TransUNetモデルの使用はすでに顕著な結果をもたらしており、平均的な病変度Diceスコアは59.8%である。
論文 参考訳(メタデータ) (2024-03-23T06:03:12Z) - BinaryHPE: 3D Human Pose and Shape Estimation via Binarization [99.83378699846767]
3次元人のポーズと形状推定(HPE)は、単一の画像から3次元の人体、顔、手を再構築することを目的としている。
本研究では,人体・顔・手の3次元パラメータを効率的に推定するバイナライズ手法であるBinaryHPEを提案する。
論文 参考訳(メタデータ) (2023-11-24T07:51:50Z) - Focused Decoding Enables 3D Anatomical Detection by Transformers [64.36530874341666]
集束デコーダと呼ばれる3次元解剖学的構造検出のための新しい検出変換器を提案する。
Focused Decoderは、解剖学的領域のアトラスからの情報を活用して、クエリアンカーを同時にデプロイし、クロスアテンションの視野を制限する。
提案手法を利用可能な2つのCTデータセットに対して評価し、フォーカスドデコーダが強力な検出結果を提供するだけでなく、大量の注釈付きデータの必要性を軽減し、注意重みによる結果の例外的で直感的な説明性を示すことを示した。
論文 参考訳(メタデータ) (2022-07-21T22:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。