論文の概要: Hölder++: Improving the Quality-Coherence Trade-off in Multimodal VAEs
- arxiv url: http://arxiv.org/abs/2606.13381v1
- Date: Thu, 11 Jun 2026 14:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.841032
- Title: Hölder++: Improving the Quality-Coherence Trade-off in Multimodal VAEs
- Title(参考訳): Hölder++:マルチモーダルVAEの品質コヒーレンストレードオフを改善する
- Authors: Huyen Vo, María Martínez-García, Isabel Valera,
- Abstract要約: 既存のマルチモーダル変分オートエンコーダ(VAE)のアプローチは、生成品質とコヒーレンスとの間のトレードオフに直面しており、現実的で多様なサンプルを生成するのに苦労している。
i)マルチモーダルVAEの近似を伴わないHlderプールの最初の実装、(ii)共有とプライベートの区別をモデル化した拡張アーキテクチャ(Hlder+)、(iii)共有とプライベートの絡み合いをさらに高める階層的推論。
- 参考スコア(独自算出の注目度): 8.297594960710043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches for multimodal variational autoencoders (VAEs) face a trade-off between generative quality and coherence-i.e., they struggle to generate realistic and diverse samples that, at the same time, are semantically consistent across modalities. A recent work shows that using a simple approximation to Hölder pooling as an aggregation method improves coherence over the SOTA MMVAE+, despite assuming a single shared representation across all modalities. Yet, it slightly compromises sample diversity. Inspired by this insight, we propose Hölder++, a novel multimodal VAE that improves the generative quality-coherence trade-off through: (i) the first implementation of Hölder pooling without any approximation for multimodal VAEs; (ii) an extended architecture that models distinct shared and private (i.e., modality-specific) representations (Hölder+); and (iii) hierarchical inference that further enhances the disentanglement between the shared and private representations (Hölder++). Our experiments corroborate that Hölder++ consistently improves the generative quality-coherence trade-off, yields more structured latent spaces, and learns shared representations that are informative for downstream tasks.
- Abstract(参考訳): 既存のマルチモーダル変分オートエンコーダ(VAE)のアプローチは、生成品質とコヒーレンスとの間のトレードオフに直面している。
近年の研究では、Hölderプールをアグリゲーション法として単純な近似を用いることで、すべてのモダリティに対して単一の共有表現が仮定されているにもかかわらず、SOTA MMVAE+のコヒーレンスを改善することが示されている。
しかし、サンプルの多様性をわずかに損なう。
この洞察にインスパイアされたHölder++は、生成的品質コヒーレンストレードオフを改善する新しいマルチモーダルVAEである。
(i)マルチモーダルVAEの近似を伴わないHölderプールの最初の実装。
(ii)共有表現とプライベート表現(すなわち、モダリティ特化表現)をモデル化する拡張アーキテクチャ(Hölder+)
(iii)共有表現とプライベート表現(Hölder++)の絡み合いをさらに高める階層的推論。
我々の実験は、Hölder++が生成的品質コヒーレンストレードオフを一貫して改善し、より構造化された潜在空間を生成し、下流タスクに有用な共有表現を学ぶことを裏付けている。
関連論文リスト
- Hellinger Multimodal Variational Autoencoders [7.778719963322215]
マルチモーダル変分オートエンコーダ(VAE)は、複数のモーダルを持つ弱教師付き生成学習に広く用いられている。
サブサンプリングを回避するマルチモーダルVAEであるHELVAEを提案する。
我々は、生成的コヒーレンスと品質のトレードオフを実証的に達成し、最先端のマルチモーダルVAEモデルより優れています。
論文 参考訳(メタデータ) (2026-01-10T13:39:36Z) - Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Aggregation of Dependent Expert Distributions in Multimodal Variational Autoencoders [32.87811217394167]
変分オートエンコーダ(VAE)を用いたマルチモーダル学習は,エビデンスローバウンド(ELBO)を評価するために関節分布を推定する必要がある
本研究は,従属専門家の合意の原則を生かして,単一モダリティ分布を集約する新しい手法を提案する。
結果として得られたCoDE-VAEモデルは、生成的コヒーレンスと生成的品質のトレードオフのバランスの点で優れた性能を示し、より正確なログライクな推定を生成する。
論文 参考訳(メタデータ) (2025-05-02T09:24:10Z) - Unity by Diversity: Improved Representation Learning in Multimodal VAEs [24.85691124169784]
ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。
既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
論文 参考訳(メタデータ) (2024-03-08T13:29:46Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Score-Based Multimodal Autoencoder [0.9208007322096533]
マルチモーダル変分オートエンコーダ (VAEs) は、複数のモーダルが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
これまでの研究では、モダリティの数が増えるにつれて、各モダリティの生成品質が低下することが示されている。
本研究では、独立に訓練された単調なVAEの潜伏空間を共同でモデル化することにより、マルチモーダルなVAEの生成性能を高めるための代替手法について検討する。
論文 参考訳(メタデータ) (2023-05-25T04:43:47Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。