論文の概要: MMDiff: Extending Diffusion Transformers for Multi-Modal Generation
- arxiv url: http://arxiv.org/abs/2606.16673v1
- Date: Mon, 15 Jun 2026 13:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.568962
- Title: MMDiff: Extending Diffusion Transformers for Multi-Modal Generation
- Title(参考訳): MMDiff:マルチモード生成のための拡散変換器の拡張
- Authors: Yagmur Akarken, Orest Kupyn, Christian Rupprecht,
- Abstract要約: MMDiffは、凍結拡散トランスフォーマーを多モード生成システムに変換するフレームワークである。
我々の中心的な発見は、知覚情報は認知軌道に沿って時間的に分散されていることである。
凍結したバックボーン上の軽量デコーダヘッドのみをトレーニングすることにより、セマンティックセグメンテーション、健全な物体検出、深さ推定において高い性能を達成する。
- 参考スコア(独自算出の注目度): 23.370106597954404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers have demonstrated remarkable generative capabilities, yet the rich perceptual representations computed across their denoising trajectory are discarded once the content is rendered. We present MMDiff, a framework that transforms a frozen diffusion transformer into a multi-modal generative system that jointly produces images alongside any combination of dense perceptual modalities using lightweight decoder heads. Our central finding is that perceptual information is temporally distributed along the denoising trajectory, and that multi-timestep feature fusion with spatially varying aggregation weights is essential, improving semantic segmentation results by up to 28.7% mIoU over single-timestep extraction. We further adopt concept-driven attention extraction for interpretable spatial guidance, and show that frozen diffusion features are competitive with and complementary to state-of-the-art encoders such as DINOv3. By training only lightweight decoder heads on a frozen backbone, we achieve strong performance in semantic segmentation, salient object detection, and depth estimation, and demonstrate that this framework enables effective synthetic data generation at scale.
- Abstract(参考訳): 拡散変換器は、顕著な生成能力を示してきたが、その認知軌道で計算された豊かな知覚表現は、コンテンツがレンダリングされると破棄される。
本稿では, 凍結拡散変換器を多モード生成システムに変換するMDDiffについて述べる。
我々の中心的な発見は、知覚情報は認知軌跡に沿って時間的に分布し、空間的に異なる重み付けによる多段階特徴融合が不可欠であり、単一ステップ抽出よりも最大28.7% mIoUのセマンティックセグメンテーション結果を改善することである。
さらに、解釈可能な空間誘導のための概念駆動型アテンション抽出を採用し、凍結拡散特性がDINOv3のような最先端エンコーダと競合し相補的であることを示す。
凍結したバックボーン上の軽量デコーダヘッドのみをトレーニングすることにより、セマンティックセグメンテーション、健全なオブジェクト検出、深さ推定において強力な性能を実現し、このフレームワークが大規模に効率的な合成データ生成を可能にすることを実証する。
関連論文リスト
- EAPFusion: Intrinsic Evolving Auxiliary Prior Guidance for Infrared and Visible Image Fusion [15.580984590527343]
赤外線可視画像融合は、赤外線センシングによる相補的な熱塩分と、可視画像からの微細なテクスチャを統合することで、情報に富んだ融合画像を作成することを目的としている。
既存の融合法の多くは、推論時にシーン固有のコンテンツに適応できない静的なトレーニングされた重みに依存している。
本研究では,外部補助モデルに頼らず,自己進化型固有の先行モデルを用いて,これらの問題に対処するEAPFusionを提案する。
論文 参考訳(メタデータ) (2026-05-03T14:56:00Z) - Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - HTMformer: Hybrid Time and Multivariate Transformer for Time Series Forecasting [14.205408555688306]
トランスフォーマーに基づく手法は時系列予測において顕著な結果を得た。
既存のTransformerは、時間的依存関係を過度に強調する傾向があるため、シーケンスモデリングに制限がある。
変換器の性能は,効率的な表現の学習に使用される埋め込み法に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2025-10-08T14:40:42Z) - Automated Learning of Semantic Embedding Representations for Diffusion Models [1.688134675717698]
拡散モデルの表現能力を拡大するために,マルチレベル・デノナイジング・オートエンコーダ・フレームワークを用いる。
我々の研究は、DDMが生成タスクに適合するだけでなく、汎用的なディープラーニングアプリケーションにも有利である可能性を正当化している。
論文 参考訳(メタデータ) (2025-05-09T02:10:46Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。