論文の概要: UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2606.16255v1
- Date: Mon, 15 Jun 2026 05:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.103618
- Title: UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer
- Title(参考訳): UniDDT: 分離拡散変換器によるマルチモーダル理解と生成の統合
- Authors: Shuai Wang, Liang Li, Yang Chen, Ruopeng Gao, Yao Teng, Limin Wang,
- Abstract要約: 統一マルチモーダルモデル(UMM)は汎用マルチモーダルインテリジェンスにとって重要な方向として現れている。
既存のUMMは,(1)視覚的理解と生成タスクの間に固有の学習の衝突が生じ,両者のタスクが最適でないモデリングに繋がる,(2)異なる理解と生成の空間がスケーラビリティを妨げる,(3)テキスト・イメージ的理解と生成の双対性を無視したタスク固有のデータへの過度な依存,といった課題に直面している。
- 参考スコア(独自算出の注目度): 29.975180930024067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified Multimodal Models (UMMs) have emerged as a critical direction for general-purpose multimodal intelligence, integrating understanding and generation into a single framework. However, existing UMMs face prominent challenges: (1) the inherent learning conflicts between visual understanding and generation tasks, leading to suboptimal modeling in both tasks; (2) different understanding and generation visual spaces impeding scalability; (3) over-reliance on task-specific data that neglects the duality of text-image understanding and generation. To address these challenges, we propose UniDDT, which leverages a Noisy ViT encoder along with an LLM to unify semantic encoding for visual generation and understanding tasks, while employing a separate diffusion decoder to decouple diffusion decoding from text decoding. With this Noisy ViT encoder, UniDDT is able to leverage the latent space as a unified visual representation, enabling seamless compatibility between understanding and generation tasks. Thus, the scalability within the generation tasks and the semantic expressiveness within understanding tasks can be balanced. Also, we construct dual data structures from the same image-text pairs, fostering interdependence between the generation and understanding data to exploit their inherent duality. Extensive experiments demonstrate that UniDDT achieves effective unification of multimodal understanding and generation with enhanced semantic consistency and scalability. For visual generation tasks, our UniDDT achieves 0.87 GenEval score and 86.9 DPG overall score. For multimodal understanding tasks, our UniDDT achieves 1699.5 score on MME benchmark and 76.5 overall score on SEEDbench.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、汎用マルチモーダルインテリジェンスにとって重要な方向として現れ、理解と生成を単一のフレームワークに統合している。
しかし,既存のUMMでは,(1)視覚的理解と生成タスク間の固有の学習の相違が両タスクの最適部分モデリングに繋がる,(2)異なる理解と生成の空間がスケーラビリティを妨げる,(3)テキスト画像理解と生成の双対性を無視したタスク固有のデータへの過度な依存など,大きな課題に直面している。
これらの課題に対処するため、我々は、UniDDTを提案する。これは、視覚生成と理解タスクのためのセマンティックエンコーディングを統合するために、LLMとともにノイズ ViTエンコーダを活用し、テキストデコーディングから拡散デコードを切り離すために、分離された拡散デコーダを用いる。
このノイズの多いViTエンコーダにより、UniDDTは潜在空間を統一された視覚表現として活用し、理解と生成タスク間のシームレスな互換性を実現する。
したがって、生成タスク内のスケーラビリティと理解タスク内の意味表現性はバランスをとることができる。
また、同じ画像とテキストのペアから2つのデータ構造を構築し、生成と理解データ間の相互依存を育み、それら固有の双対性を利用する。
拡張されたセマンティック一貫性と拡張性を備えたマルチモーダル理解と生成を,UniDDTが効果的に統合できることを実証した。
視覚生成タスクにおいて、我々のUniDDTは0.87 GenEvalスコアと86.9 DPGスコアを達成した。
マルチモーダル理解タスクでは,MMEベンチマークで1699.5,SEEDbenchで76.5を達成している。
関連論文リスト
- Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models [98.8608163448532]
統一マルチモーダルモデル(UMM)は、視覚的理解と生成の統合において顕著な進歩を遂げた。
本稿では,UMMを教師と学生として同時に機能させる,トークンレベルの固有テキスト画像アライメント報酬機構GvUを提案する。
提案手法により,UMMの生成が大幅に向上し,視覚的理解の微粒化が促進されることを示す。
論文 参考訳(メタデータ) (2026-03-06T08:56:14Z) - TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models [96.41974190202642]
統一マルチモーダルモデル(UMM)は,単一のフレームワーク内でのマルチモーダル理解と生成を共同で行うことを目的としている。
本稿では、VAEエンコーダを表現エンコーダでカスケードすることで、統一された連続的な視覚表現を構築するネイティブUMMであるTUNAを提案する。
論文 参考訳(メタデータ) (2025-12-01T18:59:51Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - UnifiedVisual: A Framework for Constructing Unified Vision-Language Datasets [51.284864284520744]
統合視覚大言語モデル(VLLM)は、最近、マルチモーダル理解と生成の両方において顕著な進歩を遂げている。
本稿では,新しいデータセット構築フレームワークUnifiedVisualを導入し,UnifiedVisual-240Kを提案する。
UnifiedVisual-240Kは、様々な視覚的およびテキスト的入力と出力をシームレスに統合し、包括的なクロスモーダル推論を可能にする。
論文 参考訳(メタデータ) (2025-09-18T08:39:44Z) - UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation [39.921363034430875]
統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。
本研究では,タスク固有の専門家モデルの理解と生成のためのモダリティアライメント行動について検討する。
タスクの干渉を避けるため,タスク固有の分岐を深いレイヤに導入しながら,タスクのタスク表現学習のための浅いレイヤを共有する,新しいY字型アーキテクチャであるUniForkを紹介した。
論文 参考訳(メタデータ) (2025-06-20T17:52:31Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies [25.77487827338777]
再建のために訓練された視覚トークンーは、低レベルの知覚の詳細を捉えるのに優れる。
対照的な学習によって訓練された視覚エンコーダは、言語とよく一致しているが、生成タスクのためにピクセル空間に復号化するのに苦労する。
本稿では,単一のトークン化器内での理解と生成の両方の表現を統一する手法であるDualTokenを提案する。
論文 参考訳(メタデータ) (2025-03-18T14:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。