論文の概要: Explicit Representation Alignment for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2606.09148v1
- Date: Mon, 08 Jun 2026 07:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.80944
- Title: Explicit Representation Alignment for Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感性分析のための明示的表現アライメント
- Authors: Baode Wang, Ziming Wang, Huacan Wang, Ronghao Chen, Biao Wu,
- Abstract要約: マルチモーダル感情分析は、テキストや画像などの異質なモダリティを共同でモデル化することで、人間の感情と感情を理解することを目的としている。
実効マルチモーダル学習の鍵となるボトルネックとして,独立に事前訓練されたモダリティエンコーダ間の表現の不整合を同定する。
視覚的コンテンツを構造化されたテキスト記述に変換するために視覚言語モデル(VLM)を利用する統合マルチモーダル感情分析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.25685888421759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal affective analysis aims to understand human sentiment and emotion by jointly modeling heterogeneous modalities such as text and images. However, multimodal models often fail to consistently outperform strong text-only baselines, with performance varying significantly across fusion strategies. In this work, we identify representation misalignment between independently pretrained modality encoders as a key bottleneck for effective multimodal learning, and show through controlled experiments that alignment prior to fusion is often more important than fusion complexity. To address this issue, we propose a unified multimodal affective analysis framework that leverages vision-language models (VLMs) to convert visual content into structured textual descriptions, projecting heterogeneous modalities into a shared linguistic space and enabling interpretable text-centric reasoning. To further improve robustness, we introduce a hybrid learning strategy that combines semantic token selection with a batch-level uniformity regularization objective, encouraging a more dispersed and stable global feature space while mitigating noise introduced by VLM-generated descriptions. Experiments on multiple multimodal sentiment and emotion benchmarks show that our method consistently outperforms strong unimodal and multimodal baselines, achieving state-of-the-art performance. Our analysis further highlights the critical role of representation alignment in multimodal affective learning.
- Abstract(参考訳): マルチモーダル感情分析は、テキストや画像などの異質なモダリティを共同でモデル化することで、人間の感情と感情を理解することを目的としている。
しかし、マルチモーダルモデルは強いテキストのみのベースラインを一貫して上回り、その性能は融合戦略によって大きく異なる。
本研究では、独立に事前訓練されたモダリティエンコーダ間の表現ミスアライメントを効果的なマルチモーダル学習の鍵となるボトルネックとして同定し、融合前のアライメントが融合複雑性よりも重要であることを示す。
この問題に対処するために、視覚的コンテンツを構造化されたテキスト記述に変換するために視覚言語モデル(VLM)を活用し、異質なモダリティを共通言語空間に投影し、解釈可能なテキスト中心の推論を可能にする、統一されたマルチモーダル感情分析フレームワークを提案する。
さらにロバスト性を向上させるために,本研究では,意味トークン選択とバッチレベルの均一性正規化の目的を組み合わせたハイブリッド学習戦略を導入し,VLM生成記述によるノイズの緩和を図りながら,より分散的で安定したグローバル特徴空間を奨励する。
マルチモーダルな感情と感情のベンチマーク実験により、我々の手法は強い非モーダルとマルチモーダルのベースラインを一貫して上回り、最先端のパフォーマンスを実現していることが示された。
本分析は,多モーダル感情学習における表現アライメントの重要性をさらに強調する。
関連論文リスト
- UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Beyond Spurious Signals: Debiasing Multimodal Large Language Models via Counterfactual Inference and Adaptive Expert Routing [10.66971486730557]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合する能力を示すが、しばしば素早い相関に頼っている。
本稿では,MLLMの表層相関バイアスに対する批判的課題を,新たな因果媒介に基づく脱バイアスフレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-09-18T19:01:11Z) - Representation Decomposition for Learning Similarity and Contrastness Across Modalities for Affective Computing [19.177541719713666]
マルチモーダル感情コンピューティングは、画像やテキストなどの多様なデータソースから人間の態度を自動的に認識し、解釈することを目的としている。
本稿では,視覚的およびテキスト的表現を共有(モダリティ不変)およびモダリティ固有のコンポーネントに明示的に分解する,感情コンピューティングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-08T11:15:57Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。