Fugu-MT 論文翻訳(概要): M$^3$Exam: Benchmarking Multimodal Memory for Realistic User-Agent Interactions

論文の概要: M$^3$Exam: Benchmarking Multimodal Memory for Realistic User-Agent Interactions

arxiv url: http://arxiv.org/abs/2606.07402v1
Date: Fri, 05 Jun 2026 15:44:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.833494
Title: M$^3$Exam: Benchmarking Multimodal Memory for Realistic User-Agent Interactions
Title（参考訳）: M$^3$Exam: 現実的なユーザ-エージェントインタラクションのためのマルチモーダルメモリのベンチマーク
Authors: Zhengjun Huang, Wenxuan Liu, Zhoujin Tian, Wei Chen, Junle Chen, Yuqian Wu, Fangyuan Zhang, Qintian Guo, Xiaofang Zhou,
Abstract要約: M$3$Examは、クエリ中心のマルチモーダルな会話メモリベンチマークで、現実的なユーザ-エージェントインタラクションに基づいている。本稿では,M$3$Proctorを提案する。M$3$Proctorはクエリのモダリティバイアスを検出し,要求に応じてのみ生のビジュアルソースを消費するマルチモーダルメモリ手法である。
参考スコア（独自算出の注目度）: 21.009839718901855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language agents are increasingly deployed over accumulating multimodal information, yet existing benchmarks assume a human-human form with sparse visuals and straightforward content, evaluating neither reasoning over authentic multimodal file interaction nor the interpretation of concealed user information. We therefore introduce M$^3$Exam, a query-centric multimodal conversational memory benchmark built on realistic user-agent interaction, with multi-dimensional evaluation spanning cross-modal grounding and implicit information inference. Benchmarking MLLMs and memory systems reveals persistent gaps in cross-modal grounding, cross session reasoning, and the efficiency cost of accumulating multimodal context. We further propose M$^3$Proctor, a multimodal memory method that detects query modality bias and consumes raw visual sources only on demand, improving accuracy by 13% while cutting index-construction time and retrieved tokens by over 70%.
Abstract（参考訳）: 言語エージェントは、マルチモーダル情報を蓄積する上で、ますますデプロイされているが、既存のベンチマークでは、人間と人間の間には、まばらな視覚と素直なコンテンツがあり、実際のマルチモーダルファイルのやりとりに対する推論も、隠蔽されたユーザー情報の解釈も評価されていない。そこで我々は,M$^3$Examという,現実的なユーザエージェントインタラクションに基づくクエリ中心の多モード対話メモリベンチマークを導入し,クロスモーダルグラウンドと暗黙の情報推論を多次元評価した。 MLLMとメモリシステムのベンチマークにより、クロスモーダルグラウンドリング、クロスセッション推論、マルチモーダルコンテキストを蓄積する効率コストの持続的なギャップが明らかになった。さらにM$^3$Proctorを提案する。M$^3$Proctorは、クエリのモダリティバイアスを検出し、要求に応じてのみ生のビジュアルソースを消費し、インデックス構築時間と検索トークンを70%以上削減しながら精度を13%向上する。

関連論文リスト

Measuring Cross-Modal Synergy: A Benchmark for VLM Explainability [16.886338830987462]
視覚言語モデル(VLM)は複雑な視覚入力を意味空間にマッピングする。本稿では、Shapley Interaction Indexに根ざしたスケーラブルな計量であるSynergistic Faithfulness(mathcalF_syn$)を紹介する。
論文参考訳（メタデータ） (2026-05-21T08:39:46Z)
Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。 Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文参考訳（メタデータ） (2026-01-07T02:03:13Z)
MAVIS: A Benchmark for Multimodal Source Attribution in Long-form Visual Question Answering [44.41273615523289]
マルチモーダルソース属性システムを評価するための最初のベンチマークであるMAVISを紹介する。我々のデータセットは157Kの視覚的QAインスタンスで構成されており、各回答にはマルチモーダル文書を参照したファクトレベルの引用が注釈付けされている。本研究では,情報性,接地性,流感の3次元に沿って細粒度自動測定値を作成し,人間の判断と強い相関関係を示す。
論文参考訳（メタデータ） (2025-11-15T10:14:59Z)
MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-30T15:09:14Z)
KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文参考訳（メタデータ） (2025-08-12T19:43:44Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。 MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文参考訳（メタデータ） (2024-07-05T02:01:49Z)
MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。 MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文参考訳（メタデータ） (2024-04-24T17:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。