論文の概要: SynIB: Informational Bottleneck for Maximizing Synergy in Multimodal Learning
- arxiv url: http://arxiv.org/abs/2606.09853v1
- Date: Tue, 12 May 2026 19:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.808623
- Title: SynIB: Informational Bottleneck for Maximizing Synergy in Multimodal Learning
- Title(参考訳): SynIB:マルチモーダル学習におけるシナジーの最大化のための情報基盤
- Authors: Konstantinos Kontras, Teodora Gagaleska, Thomas Strypsteen, Christos Chatzichristos, Matthew Blaschko, Maarten De Vos, Paul Pu Liang,
- Abstract要約: 情報理論によるマルチモーダル・シナジーの定式化とSynIB(Syngistic Information Bottleneck)の導入
学習シナジーを優先するために、SynIBはあらゆるモダリティから正確に予測するモデルを動機付け、あらゆるモダリティからの情報が保持されない場合に信頼を罰する。
実世界の5つのベンチマークでは、SynIBはシナジーに依存したサンプルの精度を最大7.8%改善し、全体的な精度は最大3.8%向上した。
- 参考スコア(独自算出の注目度): 25.615780318743475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central objective in multimodal learning is to capture synergy: task-relevant information that arises only from the joint use of multiple modalities, and is not available from any single modality alone. While most approaches operate at the architectural level through larger or more complex fusion models, we propose a complementary axis: shaping the training objective itself. Standard training often emphasizes unimodal or redundant information, falling short on examples that require cross-modal reasoning. We formalize multimodal synergy through information theory and introduce the Synergistic Information Bottleneck (SynIB), a scalable objective that targets synergy directly. To prioritize learning synergy, SynIB motivates the model to predict accurately from all modalities while penalizing confidence when information from any modality is withheld. Alongside the standard task loss, the model runs forward passes with one modality masked at a time and is penalized for remaining confident, which would indicate reliance on unimodal cues rather than cross-modal interactions. We validate SynIB in two regimes. On synthetic XOR tasks where the ground-truth synergy is known by construction, standard training fails to recover it while SynIB does. On five real-world benchmarks, including three MultiBench affective tasks, Hateful Memes with CLIP-ViT and DeBERTa backbones, and a controllable irony extension of CREMA-D we introduce, SynIB improves accuracy on synergy-dependent examples by up to 7.8% and overall accuracy by up to 3.8%.
- Abstract(参考訳): マルチモーダル学習における中心的な目的は、複数のモーダルのジョイント利用からのみ生じるタスク関連情報であり、単一のモーダルだけでは利用できない、シナジーを捉えることである。
ほとんどのアプローチは、より大きなまたはより複雑な融合モデルを通してアーキテクチャレベルで動作しますが、我々は、トレーニング目標自体を形作る、補完軸を提案します。
標準的なトレーニングは、通常、一過性の情報や冗長な情報を強調し、クロスモーダルな推論を必要とする例では不十分である。
我々は情報理論を通じて多モードのシナジーを定式化し、シナジーを直接ターゲットとするスケーラブルな目的であるシナジスティック・インフォメーション・ボトルネック(SynIB)を導入する。
学習シナジーを優先するために、SynIBはあらゆるモダリティから正確に予測するモデルを動機付け、あらゆるモダリティからの情報が保持されない場合に信頼を罰する。
標準的なタスク損失の他に、モデルは1つのモダリティを一度にマスクしたまま前進し、自信を保つために罰せられる。
我々はSynIBを2つの体制で検証する。
地上の構文が建設によって知られている合成XORタスクでは、SynIBが行う間、標準的なトレーニングは回復に失敗する。
3つのMultiBench感情タスク、CLIP-ViTとDeBERTaバックボーンによるHateful Memes、CREMA-Dの制御可能な皮肉拡張を含む実世界の5つのベンチマークにおいて、SynIBはシナジーに依存したサンプルの精度を最大7.8%改善し、全体的な精度を最大3.8%向上した。
関連論文リスト
- Training Multimodal Large Reasoning Models Needs Better Thoughts: A Three-Stage Framework for Long Chain-of-Thought Synthesis and Selection [64.34737012956182]
大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通して複雑な推論タスクにおいて顕著な性能を示した。
既存のマルチモーダルデータセットとCoTメソッドは、依然として限定的な推論深さ、モダリティ変換エラー、厳密な生成パイプラインに悩まされている。
マルチモーダル推論タスクに適した高品質なCoTデータを生成するための3段階合成選択フレームワークであるSynSelectを提案する。
論文 参考訳(メタデータ) (2025-12-22T02:07:20Z) - Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities [2.5472580243871623]
本稿では,音声,顔,ジェスチャーのモダリティを統合した3モーダル人物識別フレームワークを提案する。
提案手法はマルチタスク学習を利用して各モータリティを独立に処理し,その後にクロスアテンションとゲート融合機構を付加する。
1、2つのモダリティが利用できない場合でも高い精度を保っていることを示す。
論文 参考訳(メタデータ) (2025-12-16T22:59:24Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning [16.8379583872582]
我々は,情報ボトルネックの概念を利用する情報理論階層知覚(ITHP)モデルを開発した。
我々は、ITHPがマルチモーダル学習シナリオにおいて重要な情報を一貫して蒸留し、最先端のベンチマークより優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T01:34:44Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Dyna-bAbI: unlocking bAbI's potential with dynamic synthetic
benchmarking [16.109330335379962]
Dyna-bAbIは動的フレームワークであり、bAbIのタスク生成を細かく制御する。
構成一般化を必要とする3つの新しいタスクを構築することで、私たちのアイデアを実証する。
論文 参考訳(メタデータ) (2021-11-30T20:36:56Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。