論文の概要: Bridging Traditional Explainability Methods and Multimodal Multilingual Models: An XAI-Based Analysis
- arxiv url: http://arxiv.org/abs/2606.07533v1
- Date: Tue, 21 Apr 2026 11:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.68355
- Title: Bridging Traditional Explainability Methods and Multimodal Multilingual Models: An XAI-Based Analysis
- Title(参考訳): 従来の説明可能性手法とマルチモーダル多言語モデル:XAIに基づく分析
- Authors: Paweł Pozorski, Jakub Muszyński, Maria Ganzha,
- Abstract要約: MLLM(Multimodal Large Language Models)は、テキストと音声を統合し、複雑な対話対話における文脈を解釈する。
我々はShapley Valueフレームワークのマルチモーダル拡張を形式化し、離散テキストトークンとアライメントされた音声セグメントを協調的な機能として扱う。
本稿では,高周波数音声ストリームを解釈可能な単語整列セグメントにマッピングする新しい前処理手法であるSpectrogram-Guided Phonetic Alignment (SGPA)を提案する。
- 参考スコア(独自算出の注目度): 1.8352113484137629
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) effectively integrate text and audio to interpret context in complex interactive dialogues. However, the internal mechanisms by which heterogeneous modalities influence model behavior remain opaque. While Shapley Values (SV) provide a robust, model-agnostic framework for local explainability in text-based NLP, their extension to multimodal data is hindered by cross-channel dependencies, intricate dialogue structures, and the prohibitive computational complexity of dense audio representations. In this work, we formalize a multimodal extension of the Shapley Value framework, treating discrete text tokens and aligned audio segments as cooperative features. To ensure computational feasibility, we deploy a suite of efficient estimation strategies: exact SV computation for low-dimensional inputs and sampling-based approximations - including Monte Carlo permutations and stratified sampling with Neyman-optimal allocation - to minimize variance under constrained computational budgets. To resolve the granularity mismatch between modalities, we propose Spectrogram-Guided Phonetic Alignment (SGPA), a novel preprocessing method that maps high-frequency audio streams to interpretable, word-aligned segments. Our contribution is twofold: first, we provide an open-source, model-agnostic Python package and a companion GUI for the computation and interactive visualization of multimodal attributions. Second, we evaluate our framework using curated subsets of the VoiceBench and Infinity Instruct datasets across diverse multilingual scenarios. Our experimental results reveal that input modality is a primary driver of attribution volatility and demonstrate that standard syntactic importance proxies often fail to predict model attention in multimodal, cross-lingual contexts.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑な対話型対話における文脈の解釈にテキストと音声を効果的に統合する。
しかし、不均一なモジュラリティがモデル行動に影響を与える内部メカニズムはいまだ不透明である。
Shapley Values (SV)はテキストベースのNLPにおける局所的説明可能性のための堅牢でモデルに依存しないフレームワークを提供するが、そのマルチモーダルデータへの拡張は、チャネル間の依存関係、複雑な対話構造、高密度音声表現の禁止的な計算複雑性によって妨げられる。
本研究では,Shapley Valueフレームワークのマルチモーダル拡張を形式化し,個別のテキストトークンとアライメントされた音声セグメントを協調的な機能として扱う。
低次元の入力に対する正確なSV計算とサンプリングに基づく近似(モンテカルロの置換や、Neyman-Optimalアロケーションによる階層化サンプリングなど)を、制約された計算予算下での分散を最小限に抑えるための効率的な推定戦略のスイートをデプロイする。
モーダル間の粒度ミスマッチを解決するために,高頻度音声ストリームを解釈可能な単語整列セグメントにマッピングする新しい前処理法であるSpectrogram-Guided Phonetic Alignment (SGPA)を提案する。
まず、オープンソースでモデルに依存しないPythonパッケージと、マルチモーダル属性の計算とインタラクティブな視覚化のためのGUIを提供する。
次に,VoiceBenchおよびInfinity Instructデータセットのキュレートされたサブセットを用いて,多様な多言語シナリオを対象としたフレームワークの評価を行った。
実験結果から,入力モダリティが帰属ボラティリティの原動力であることが明らかとなり,標準構文的重要性のプロキシが多言語・多言語的文脈におけるモデル注意の予測に失敗することが示された。
関連論文リスト
- mllm-shap: A Shapley Value Explainability Platform for Text-Audio Multimodal Large Language Models [1.8352113484137629]
mllm-shapは、テキストのみの大規模言語モデルからマルチモーダルLLMまで、Shapley Valueの説明可能性を拡張するために設計されたPythonフレームワークである。
個別テキストトークンと高密度オーディオエンコーダフレームのインターリーブ処理を管理するモダリティ対応型連成マスキング。
音声アライメントに基づくトークングループ化 – 連立空間を10倍から50倍に削減する,新たなテクニックだ。
論文 参考訳(メタデータ) (2026-04-21T10:01:51Z) - LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation [51.071351994330605]
統一型マルチモーダル事前訓練は,単一の基礎モデル内での言語とビジョンを共同でモデル化するための,有望なパラダイムとして登場した。
既存のアプローチは暗黙的あるいは間接的なアライメント信号に大きく依存しており、マルチモーダル理解と生成を同時にサポートするのに最適である。
LVRPOは言語と視覚的表現を明確に整合させる言語-視覚的強化に基づく嗜好最適化フレームワークである。
論文 参考訳(メタデータ) (2026-03-29T13:38:21Z) - PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation [58.1914505657064]
本稿では,クラスレベルのセマンティクスと空間コンテキスト間の知識干渉の課題を軽減するために,単純な並列コストアグリゲーション(PCA-Seg)パラダイムを提案する。
8つのベンチマークの実験では、PCA-Segの各並列ブロックは0.35万のパラメータしか追加せず、最先端のOSPS性能を実現している。
論文 参考訳(メタデータ) (2026-03-18T09:26:43Z) - ChatUMM: Robust Context Tracking for Conversational Interleaved Generation [44.19929499646892]
統一マルチモーダルモデル(UMM)は目覚ましい進歩を遂げているが、シングルターン相互作用パラダイムによって制約されている。
本稿では,対話型統合モデルChatUMMを提案する。
ChatUMMは、連続的な会話の流れとしてシリアライズされたテキストイメージストリームをモデル化するインターリーブされたマルチターントレーニング戦略に由来する。
論文 参考訳(メタデータ) (2026-02-06T07:11:50Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation [6.790539226766362]
本稿では,2段階の新たなマルチモーダルレコメンデーションフレームワークを提案する。
最初の段階では、モーダル固有およびモーダルジョイントのセマンティックIDを生成する。
第2段階では、ユーザのマルチモーダルな関心をモデル化するために、マルチコードブックのクロスアテンションネットワークが設計されている。
論文 参考訳(メタデータ) (2025-08-28T02:16:57Z) - A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。