論文の概要: Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation
- arxiv url: http://arxiv.org/abs/2606.20112v1
- Date: Thu, 18 Jun 2026 11:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.825186
- Title: Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation
- Title(参考訳): Pixel-Level Residual Diffusion Transformer:スケーラブルな3次元CTボリューム生成
- Authors: Zhenkai Zhang, Markus Hiller, Krista A. Ehinger, Tom Drummond,
- Abstract要約: Pixel-Level Residual Diffusion Transformer (PRDiT)は、高品質な3D医療量をボクセルレベルで直接合成する固有の生成フレームワークである。
PRDiTはHA-GAN、3D LDM、WDM-3Dといった最先端モデルより一貫して優れており、3D FID、MDD、ワッサーシュタイン距離スコアは大幅に低い。
- 参考スコア(独自算出の注目度): 20.986333949052007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-resolution 3D CT volumes with fine details remains challenging due to substantial computational demands and optimization difficulties inherent to existing generative models. In this paper, we propose the Pixel-Level Residual Diffusion Transformer (PRDiT), a scalable generative framework that synthesizes high-quality 3D medical volumes directly at voxel-level. PRDiT introduces a two-stage training architecture comprising 1) a local denoiser in the form of an MLP-based blind estimator operating on overlapping 3D patches to separate low-frequency structures efficiently, and 2) a global residual diffusion transformer employing memory-efficient attention to model and refine high-frequency residuals across entire volumes. This coarse-to-fine modeling strategy simplifies optimization, enhances training stability, and effectively preserves subtle structures without the limitations of an autoencoder bottleneck. Extensive experiments conducted on the LIDC-IDRI and RAD-ChestCT datasets demonstrate that PRDiT consistently outperforms state-of-the-art models, such as HA-GAN, 3D LDM and WDM-3D, achieving significantly lower 3D FID, MMD and Wasserstein distance scores.
- Abstract(参考訳): 高精度な3次元CTボリュームを細部まで生成することは、既存の生成モデルに固有の計算要求と最適化の難しさのため、依然として困難である。
本稿では,高品質な3D医療ボリュームを直接ボクセルレベルで合成するスケーラブルな生成フレームワークであるPixel-Level Residual Diffusion Transformer (PRDiT)を提案する。
PRDiTが2段階トレーニングアーキテクチャを導入
1) 重なり合う3Dパッチで動作し、低周波構造を効率的に分離するMDPベースのブラインド推定器の形式による局所的デノイザー
2) メモリ効率を考慮した大域的残差拡散変圧器は, 全容積にわたる高周波数残差をモデル化し, 精査する。
この粗大なモデリング戦略は、最適化を単純化し、訓練安定性を高め、オートエンコーダボトルネックの制限なしに微妙な構造を効果的に保存する。
LIDC-IDRIとRAD-ChestCTデータセットで実施された大規模な実験により、PRDiTはHA-GAN、3D LDM、WDM-3Dといった最先端モデルより一貫して優れており、3D FID、MDD、Wasserstein距離スコアは大幅に低い。
関連論文リスト
- Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning [7.493047521402676]
本稿では,RL(Reinforcement Learning)を用いた3次元拡散モデルの改良手法を提案する。
2次元スライス・アセスメントと3次元解析を統合した新たな報酬システムによって導かれるPPO(Proximal Policy Optimization)を用いてモデルを微調整する。
以上の結果から,RLフィードバックを組み込むことで,より高品質な分散を実現することが可能であることが示唆された。
論文 参考訳(メタデータ) (2026-03-06T11:30:55Z) - ERGO: Excess-Risk-Guided Optimization for High-Fidelity Monocular 3D Gaussian Splatting [63.138778159026934]
本稿では,ERGOと呼ばれる過度のリスク分解によって導かれる適応最適化フレームワークを提案する。
ERGOはビュー固有の過剰リスクを動的に推定し、最適化中の損失重みを適応的に調整する。
Google Scanned ObjectsデータセットとOmniObject3Dデータセットの実験は、既存の最先端メソッドよりもERGOの方が優れていることを示している。
論文 参考訳(メタデータ) (2026-02-10T20:44:43Z) - Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - Introducing 3D Representation for Medical Image Volume-to-Volume Translation via Score Fusion [3.3559609260669303]
Score-Fusionは、垂直に訓練された2次元拡散モデルをスコア関数空間に組み込むことで、3次元表現を効果的に学習する新しいボリューム変換モデルである。
Score-Fusionは,3次元医用画像の高分解能・モダリティ変換において,高い精度と容積忠実性が得られることを示す。
論文 参考訳(メタデータ) (2025-01-13T15:54:21Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Two-and-a-half Order Score-based Model for Solving 3D Ill-posed Inverse
Problems [7.074380879971194]
本稿では,3次元ボリューム再構成のための2次半順序スコアベースモデル(TOSM)を提案する。
トレーニング期間中、TOSMは2次元空間のデータ分布を学習し、トレーニングの複雑さを低減する。
再構成フェーズでは、TOSMは3方向の相補的なスコアを利用して、3次元空間のデータ分布を更新する。
論文 参考訳(メタデータ) (2023-08-16T17:07:40Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。