論文の概要: SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction
- arxiv url: http://arxiv.org/abs/2606.18780v1
- Date: Wed, 17 Jun 2026 07:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.049409
- Title: SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction
- Title(参考訳): SAMA: 統一低リソースマルチモーダル情報抽出のためのセマンティックアンカーアライメント強化
- Authors: Quanjiang Guo, Chong Mu, Jiazhou Pan, Ming Jia, Ling Tian, Hui Gao, Zhao Kang,
- Abstract要約: 高忠実でタスク対応の合成データを生成するための統合フレームワークであるSemantic Anchor-aligned Multimodal Augmentation (SAMA)を導入する。
SAMAは,多言語多言語モデル(Multimodal Large Language Model,Multi-Experts Multi-Experts Multimodal Large Language Model)のガイドとして,地上構造ラベルから構造化されたセマンティックアンカーを構築する。
SAMAは、完全に教師された設定と低リソースの設定の両方で、最先端の強化ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 12.379572218573365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Information Extraction (MIE)-covering tasks such as Multimodal Named Entity Recognition (MNER), Relation Extraction (MRE), and Event Extraction (MEE)-is essential for understanding multimedia content but remains constrained by severe data scarcity. Although data augmentation is a promising remedy, existing approaches are impeded by coarse cross-modal alignment and fragmented, task-specific designs that fail to exploit shared semantic knowledge. To overcome these limitations, we introduce Semantic Anchor-aligned Multimodal Augmentation (SAMA), a unified framework for generating high-fidelity, task-aware synthetic data. SAMA constructs structured semantic anchors from ground-truth labels to guide a Collaborative Multi-Experts Multimodal Large Language Model (CME-MLLM), which integrates a Universal Adapter for shared semantics with Task-Specific Adapters to produce diverse yet constraint-compliant textual samples. For image synthesis, SAMA employs an Anchor-Preserving Diffusion mechanism that uses anchor-weighted prompts and latent conditioning to maintain critical semantic anchors while diversifying visual contexts. To eliminate the need for manual verification, SAMA further introduces a Dual-Constraint Filtering module that selects synthetic samples based on both cross-modal consistency and anchor fidelity. Extensive experiments across benchmark datasets for MNER, MRE, and MEE demonstrate that SAMA consistently outperforms state-of-the-art augmentation baselines under both fully supervised and low-resource settings, underscoring its versatility, robustness, and effectiveness.
- Abstract(参考訳): マルチメディアコンテンツの理解にはMNER(Multimodal Named Entity Recognition)やMRE(Relation extract)、MEE(Event extract)といったマルチモーダル情報抽出(Multimodal Information extract)が不可欠である。
データ拡張は有望な治療法であるが、既存のアプローチは、粗い相互アライメントと、共有セマンティック知識の活用に失敗する、断片化されたタスク固有の設計によって妨げられている。
これらの制約を克服するために,セマンティック・アンカー・アライメント・マルチモーダル・アジュメンテーション(SAMA)を導入する。
SAMAは、多言語多言語モデル(CME-MLLM)を導くために、基幹ラベルから構造化セマンティックアンカーを構築し、タスク特化アダプタと共有セマンティクスのためのユニバーサルアダプタを統合し、多様な制約に準拠したテキストサンプルを生成する。
画像合成にはアンカー重み付きプロンプトと潜時条件付けを使用して視覚的コンテキストを多様化しながら重要なセマンティックアンカーを維持するアンカー保存拡散機構を用いる。
手動検証の必要をなくすため、SAMAはさらにDual-Constraint Filteringモジュールを導入し、クロスモーダル整合性とアンカー忠実性の両方に基づいて合成サンプルを選択する。
MNER、MRE、MEEのベンチマークデータセットにわたる大規模な実験は、SAMAが完全に教師された設定と低リソースの設定の両方で、最先端のベースラインを一貫して上回っており、その汎用性、堅牢性、有効性を評価していることを示している。
関連論文リスト
- Sparse-Dense Mixture of Experts Adapter for Multi-Modal Tracking [16.123153889076104]
本稿では,PEFTに基づくマルチモーダルトラッキングのためのSparse-Dense Mixture of Experts Adapter (SDMoEA) フレームワークを提案する。
マルチレベル多モード核融合における高次相関のモデル化における既存の追跡手法の限界を克服するため,Gram-based Semantic Alignment Hypergraph Fusion (GSAHF)モジュールを提案する。
提案手法は,複数のマルチモーダルトラッキングベンチマークにおいて,他のPEFT手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2026-03-14T02:51:10Z) - Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:58:48Z) - Modality-Specific Enhancement and Complementary Fusion for Semi-Supervised Multi-Modal Brain Tumor Segmentation [6.302779966909783]
医用画像セグメンテーションのための新しい半教師付きマルチモーダルフレームワークを提案する。
モダリティ固有のエンハンシングモジュール(MEM)を導入し、各モダリティに意味的なユニークな手がかりを強化する。
また,学習可能な相補的情報融合(CIF)モジュールを導入し,モダリティ間の相補的知識を適応的に交換する。
論文 参考訳(メタデータ) (2025-12-10T16:15:17Z) - MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation [16.81485354427923]
本稿では,新しいマルチモーダルトークンをトレーニングする2段階フレームワークであるMMQを提案する。
MMQは多モードのシナジー、特異性、行動適応を統一し、生成的検索と識別的ランキングタスクの両方にスケーラブルで汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-21T06:15:49Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。