論文の概要: mllm-shap: A Shapley Value Explainability Platform for Text-Audio Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2606.07531v1
- Date: Tue, 21 Apr 2026 10:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.681391
- Title: mllm-shap: A Shapley Value Explainability Platform for Text-Audio Multimodal Large Language Models
- Title(参考訳): mllm-shap: テキスト監査マルチモーダル大言語モデルのためのシェープな値説明可能性プラットフォーム
- Authors: Jakub Muszyński, Paweł Pozorski, Maria Ganzha,
- Abstract要約: mllm-shapは、テキストのみの大規模言語モデルからマルチモーダルLLMまで、Shapley Valueの説明可能性を拡張するために設計されたPythonフレームワークである。
個別テキストトークンと高密度オーディオエンコーダフレームのインターリーブ処理を管理するモダリティ対応型連成マスキング。
音声アライメントに基づくトークングループ化 – 連立空間を10倍から50倍に削減する,新たなテクニックだ。
- 参考スコア(独自算出の注目度): 1.8352113484137629
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce mllm-shap, an open-source Python framework designed to extend Shapley Value (SV) explainability from text-only Large Language Models to Multimodal LLMs (MLLMs) processing joint text and audio inputs. While text-based attribution is well-studied, mllm-shap addresses three critical challenges unique to the multimodal regime: (1) Modality-aware coalition masking, which manages the interleaved processing of discrete text tokens and dense audio encoder frames. (2) Multi-turn conversation tracking, utilizing per-token metadata to maintain role and modality context. (3) Phonetic alignment-based token grouping, a novel technique that reduces the coalition space by 10x to 50x, rendering SV estimation computationally feasible for long-form audio. The platform implements five SV estimation strategies, including a Complementary Contributions (CC) estimator with Neyman-optimal allocation that demonstrates superior convergence over standard Monte Carlo baselines. mllm-shap is provided as a pip-installable package featuring an interactive web-based GUI for granular attribution visualization. To our knowledge, this is the first publicly available framework providing a complete, reproducible pipeline for SV-based explainability in text-audio MLLMs.
- Abstract(参考訳): テキストのみの大規模言語モデルから,共同テキストと音声入力を処理するマルチモーダル LLM (MLLM) まで,Shapley Value (SV) の説明可能性を拡張するために設計された,オープンソースのPythonフレームワークであるmllm-shapを紹介する。
テキストベースの属性はよく研究されているが、mllm-shapは、(1)個別のテキストトークンと高密度オーディオエンコーダフレームのインターリーブ処理を管理するモダリティ対応の連帯マスキングという、マルチモーダル体制特有の3つの重要な課題に対処している。
2) 役割とモダリティの文脈を維持するために, 話題ごとのメタデータを活用した多ターン会話追跡を行った。
(3)音声アライメントに基づくトークングループ化は,長大な音声に対してSV推定を計算可能とし,連立空間を10倍から50倍に縮小する新しい手法である。
このプラットフォームは5つのSV推定戦略を実装しており、標準モンテカルロベースラインよりも優れた収束性を示すナイマン最適アロケーションを備えた補完的貢献(CC)推定器を含む。
mllm-shapはpipインストール可能なパッケージとして提供される。
我々の知る限り、これは、テキストオーディオMLLMにおけるSVベースの説明可能性のための完全な再現可能なパイプラインを提供する、初めての公開フレームワークである。
関連論文リスト
- Bridging Traditional Explainability Methods and Multimodal Multilingual Models: An XAI-Based Analysis [1.8352113484137629]
MLLM(Multimodal Large Language Models)は、テキストと音声を統合し、複雑な対話対話における文脈を解釈する。
我々はShapley Valueフレームワークのマルチモーダル拡張を形式化し、離散テキストトークンとアライメントされた音声セグメントを協調的な機能として扱う。
本稿では,高周波数音声ストリームを解釈可能な単語整列セグメントにマッピングする新しい前処理手法であるSpectrogram-Guided Phonetic Alignment (SGPA)を提案する。
論文 参考訳(メタデータ) (2026-04-21T11:32:24Z) - Unlocking Financial Insights: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos [11.550322270589952]
FASTER(Financial Advisory Summariser with Textual Embedded Relevant Image)は、最適化された簡潔な要約を生成するフレームワークである。
FASTERは、セマンティックな視覚的記述にBLIP、テキストパターンにOCR、話者ダイアリゼーションをBOS機能としてWhisperベースの書き起こしにBLIPを使用している。
A modified Direct Preference Optimization (DPO)-based loss function, equipped with BOS-specific fact-checking, ensure precision, Relevance, and factual consistency。
論文 参考訳(メタデータ) (2025-09-25T09:54:19Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension [69.73137587705646]
マルチモーダルなtextbfPunchline comprehension textbfPunchBenchmark を導入する。
評価精度を高めるために、原文のキャプションを変更して、同義語と無称のキャプションを生成する。
そこで我々は,パンチライン理解における最先端のMLLMと人間の間に大きなギャップがあることを明らかにする。
論文 参考訳(メタデータ) (2024-12-16T15:52:59Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。