論文の概要: MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation
- arxiv url: http://arxiv.org/abs/2606.16408v1
- Date: Mon, 15 Jun 2026 08:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.246142
- Title: MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation
- Title(参考訳): MUNI:Coherent Any-Any ジェネレーションのためのマルチモーダル統一潜在拡散
- Authors: Kyeongmin Yeo, Yunhong Min, Minhyuk Sung,
- Abstract要約: MUNIは、あらゆる世代のためのエンドツーエンドのマルチモーダル遅延拡散フレームワークである。
サブセット条件のクロスモーダル生成と共有潜水器による非条件結合サンプリングを統一する。
MUNIは2つの補完的な貢献に依存している。
- 参考スコア(独自算出の注目度): 26.862922663735347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MUNI, an end-to-end multimodal latent diffusion framework for any-to-any generation that unifies subset-conditioned cross-modal generation and unconditional joint sampling through a shared stochastic latent. Existing multimodal generative models are largely LLM-based, which limits leveraging modality-specific generators and requires text-paired data for training. Recent diffusion- and flow-based any-to-any extensions take a different direction but still rely on text-aligned embeddings, fully-paired training, or matched-dimensionality deterministic mappings. MUNI rests on two complementary contributions, one architectural and one in the training objective. First, we extend latent diffusion to multimodal any-to-any generation end-to-end: instead of the standard two-stage recipe that precomputes a frozen latent space and then fits a prior over it, MUNI jointly trains modality-specific encoders, expressive decoders, and a single shared flow-based prior under one objective. Second, we identify that the standard aggregation rules of multimodal variational inference are insufficient once coupled with a learned prior and expressive decoders. A suitable shared latent must simultaneously satisfy coherence across generated modalities, predictive sufficiency of subset latents, and minimality of the latent content. We propose a routed training objective whose structural choices align the latent with these criteria and admit a minimal-sufficiency characterization in the realizable setting. Experiments on PolyMNIST-Quadrant-Labels and a large-scale image-text-audio benchmark show MUNI matching or exceeding the strongest baselines on conditional generation while opening its largest margins on unconditional coherence. Project page: https://muni-proj.github.io/.
- Abstract(参考訳): MUNIは,サブセット条件のクロスモーダル生成と非条件のジョイントサンプリングを共用した任意の生成のための,エンドツーエンドのマルチモーダル遅延拡散フレームワークである。
既存のマルチモーダル生成モデルは、主にLLMベースであり、モダリティ固有のジェネレータの利用を制限し、トレーニングにテキストペアデータを必要とする。
最近の拡散型およびフローベースの任意の拡張は、異なる方向を向いているが、テキスト整列埋め込み、完全にペアリングされたトレーニング、あるいは一致した次元性決定論的マッピングに依存している。
MUNIは2つの補完的な貢献に依存している。
まず, 凍結した遅延空間をプリコンプリートする標準的な2段階のレシピの代わりに, MUNIは, モダリティ特異的エンコーダ, 表現的デコーダ, 単一共有フローベースプリコンプリートを1つの目的の下で共同で訓練する。
第二に、マルチモーダル変分推論の標準アグリゲーションルールは、学習された事前および表現的なデコーダと一度結合すると不十分である。
適切な共有潜水剤は、生成されたモダリティ、サブセット潜水剤の予測飽和度、潜水剤の最小限のコヒーレンスを同時に満たさなければならない。
本稿では,これらの基準に適合する構造的選択を施した経路学習目標を提案する。
PolyMNIST-Quadrant-Labelsと大規模な画像-テキスト-オーディオベンチマークの実験では、MUNIが条件生成において最強の基準線に適合または超過し、無条件コヒーレンスに最大のマージンを開放した。
プロジェクトページ:https://muni-proj.github.io/.com
関連論文リスト
- CAST: Collapse-Aware multi-Scale Topology Fusion for Multimodal Coreset Selection [8.275673045109079]
マルチモーダルコアセット選択のためのCollapse-Aware Multi-Scale Topology fusion frameworkを提案する。
まず、画像とテキストのモダリティのトポロジを構築し、局所的なコラプス認識とクロスモーダル融合による統一トポロジを導出する。
次に、拡散ウェーブレット領域にマルチスケール分布マッチング基準を導入し、コアセットが元のデータセットを複数のスケールで近似することを奨励する。
論文 参考訳(メタデータ) (2026-05-12T07:59:08Z) - PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging [80.17966517536102]
マルチモーダル大規模言語モデルの事前学習の核心は、効果的なクロスモーダルアライメントの確立にあると論じる。
この知見に触発されて,マルチモーダル事前学習から学んだクロスモーダルアライメント機能を統合することを目的とした,アライメント後のマージタスクを導入する。
クロスモーダルプロジェクタのためのアライメント後マージフレームワークであるPivotMergeを提案する。
論文 参考訳(メタデータ) (2026-04-18T09:38:03Z) - PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Task-Oriented Multimodal Token Transmission in Resource-Constrained Multiuser Networks [19.42660454288912]
本稿では,効率的なマルチモーダル情報融合と利用のためのタスク指向マルチモーダルトークン伝送方式を提案する。
トークン伝送の効率を向上させるため,クロスモーダルアライメントやタスク指向微調整を含む2段階トレーニングアルゴリズムを設計した。
我々は、交互最適化手法を用いて、ユーザ間での帯域幅、電力割り当て、トークン長を共同で最適化する。
論文 参考訳(メタデータ) (2025-05-06T14:17:05Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [18.066105354135058]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer [24.159791066104358]
条件の組み合わせを扱える多条件制御可能な多条件生成フレームワークを提案する。
具体的には、新しいMMDiTアテンション機構を導入し、トレーニング可能なLoRAモジュールを組み込む。
また,マルチ条件生成タスク用に設計された最初のデータセットであるSubjectSpatial200Kを構築するための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-12T11:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。