論文の概要: When to Align, When to Predict: A Phase Diagram for Multimodal Learning
- arxiv url: http://arxiv.org/abs/2606.11190v2
- Date: Wed, 10 Jun 2026 19:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.593305
- Title: When to Align, When to Predict: A Phase Diagram for Multimodal Learning
- Title(参考訳): 適応する時, 予測する時: マルチモーダル学習のためのフェーズダイアグラム
- Authors: Ilay Kamai, Hugues Van Assel, Aviv Regev, Hagai B. Perets, Randall Balestriero,
- Abstract要約: クロスモーダルアライメントとクロスモーダル予測は、表現学習の主要なパラダイムである。
成功の度合い、失敗の度合い、クロスモーダルトレーニングの度合いについて、体系的な理解がない。
両問題に対処する統一線形フレームワークを開発する。
- 参考スコア(独自算出の注目度): 17.440086282242124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal alignment (CA) and cross-modal prediction (CP) are the dominant paradigms for multimodal representation learning, yet there is no systematic understanding of when each succeeds, when each fails, and when cross-modal training helps at all -- a gap that leaves practitioners, especially in scientific domains like biomedicine or astrophysics, with heterogeneous instruments and multiple levels of organization and measurement, unable to diagnose why standard methods underperform the best single modality. We develop a unified linear framework that addresses both questions. Under a spiked signal-plus-noise model with structured cross-modal nuisance correlation, we derive separation ratios for both objectives that expose complementary failure modes: alignment whitens each modality and fails when nuisance is strongly correlated across views; prediction encodes whatever is cross-predictable through a one-sided whitening, with recovery governed by source-modality quality. The resulting phase diagram partitions multimodal problems into four regimes: Both, CA only, CP only, and Neither. We present a data-driven procedure to locate real-world datasets in this diagram using a small labeled subsample, identifying the preferred objective and prediction direction before any cross-modal training. Experiments on synthetic data, stereo-vision benchmarks, image-caption pairs, and real astrophysical data validate the predictions in the nonlinear regime, including the Neither regime where cross-modal training is actively harmful. Our framework lets practitioners diagnose their multimodal problem and choose the right objective before committing to training. Code to reproduce the results is available at https://github.com/IlayMalinyak/mm_align_vs_pred.
- Abstract(参考訳): クロスモーダルアライメント(CA)とクロスモーダルアライメント(CP)はマルチモーダル表現学習において支配的なパラダイムであるが、それぞれの成功時期、失敗時期、そしてクロスモーダルトレーニングが全く助けにならないという体系的な理解は存在しない。
両問題に対処する統一線形フレームワークを開発する。
本研究では, 相補的障害モードを呈する両目標に対する分離比を導出する。アライメントは, 相補的障害モードを呈し, 相補的障害モードを呈し, 相補的障害モードの相互関係が強い場合に失敗する。
結果の位相図は、多重モーダル問題を、CAのみ、CPのみ、いずれの2つに分割する。
本稿では,この図中の実世界のデータセットを小さなラベル付きサブサンプルを用いて見つけ出すためのデータ駆動手法を提案する。
合成データ、ステレオビジョンベンチマーク、画像キャプチャーペア、実際の天体物理データによる実験は、クロスモーダルトレーニングが活発に有害なネーター政権を含む非線形状態の予測を検証した。
当社のフレームワークでは,実践者がマルチモーダルな問題を診断し,トレーニングにコミットする前に適切な目標を選択することができる。
結果を再現するコードはhttps://github.com/IlayMalinyak/mm_align_vs_predで公開されている。
関連論文リスト
- Conditional Imputation for Within-Modality Missingness in Multi-Modal Federated Learning [8.35064965629059]
MMFL(Multimodal Federated Learning)は、プライバシー保護のための協調トレーニングを提供する。
実世界の臨床応用は、しばしば、センサーの断続性や不規則なサンプリングによって生じるモダリティの欠如に悩まされる。
本研究では,条件付き拡散モデルを用いて,この欠陥に明示的に対処するフレームワークであるCondIを提案する。
論文 参考訳(メタデータ) (2026-04-25T02:35:08Z) - The Mean is the Mirage: Entropy-Adaptive Model Merging under Heterogeneous Domain Shifts in Medical Imaging [3.597779662054083]
予期せぬテスト時間分散シフトの下でのモデルのマージは、平均的な信頼性の低下など、単純な戦略を反映することが多い。
本稿では,前方パスのみを介してバッチ固有のマージモデルを生成するエントロピー適応型完全オンラインモデルマージ手法を提案する。
本研究では,9つの医学領域および自然領域の一般化画像分類データセットにまたがる2つのバックボーンを用いて,最先端のベースラインを用いた手法を広範に評価した。
論文 参考訳(メタデータ) (2026-02-24T21:06:19Z) - Robust Multimodal Representation Learning in Healthcare [12.190907451083765]
実世界の医療データセットは、一般的に複数のソースからの体系的なバイアスを含む。
本稿では,バイアスを特定し,対処するDual-Stream Feature Deorrelation Frameworkを提案する。
本手法では,因果関係から因果関係を解き放つために,因果関係のデコリレーション・フレームワークとデュアルストリームニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2026-01-29T16:27:54Z) - Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。
ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文 参考訳(メタデータ) (2025-12-03T12:43:16Z) - Calibrated Multimodal Representation Learning with Missing Modalities [100.55774771852468]
マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
論文 参考訳(メタデータ) (2025-11-15T05:01:43Z) - A Flow Model with Low-Rank Transformers for Incomplete Multimodal Survival Analysis [36.102030480314816]
本稿では,低ランクトランスフォーマーとフローベース生成モデルを組み合わせた,堅牢かつ柔軟なマルチモーダルサバイバル予測手法を提案する。
提案手法は, 完全モダリティ条件下での最先端性能を実現するだけでなく, 不完全モダリティシナリオ下での堅牢かつ優れた精度も維持する。
論文 参考訳(メタデータ) (2025-10-22T02:27:05Z) - Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9458156037869137]
収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-26T00:04:24Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。