論文の概要: MMGist: A Comprehensive Multimodal Benchmark for 2027
- arxiv url: http://arxiv.org/abs/2606.22437v1
- Date: Sun, 21 Jun 2026 10:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:13:08.521007
- Title: MMGist: A Comprehensive Multimodal Benchmark for 2027
- Title(参考訳): MMGist:2027年の総合マルチモーダルベンチマーク
- Authors: Wenzhen Yuan, Jiacheng Ruan, Wutao Xiong, Chengping Zhao, Ting Liu, Yuzhuo Fu,
- Abstract要約: MMGistは、7つの機能ディメンションをカバーし、7,262項目を含むキュレートされたベンチマークである。
MMGistは3段階のパイプラインで構築されており、テキストアブレーションフィルタリング、クロスモデル飽和フィルタリング、異常検出フィルタを順次組み合わせている。
我々は,27個のLVLMについて広範囲に実験を行い,MMGistと23250項目の生プールを比較した。
- 参考スコア(独自算出の注目度): 17.44916494484788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conduct a systematic study of 18 widely used vision-language benchmarks and identify three major issues: 1) many items do not rely on visual cues and therefore fail to effectively measure multimodal understanding; 2) many items are already close to performance saturation for current LVLMs, which limits their discriminative power; 3) a small number of anomalous items affect the reliability of evaluation results. To this end, we propose MMGist, a curated benchmark that covers seven capability dimensions and contains 7,262 items. MMGist is constructed through a three-stage pipeline, which sequentially combines text-ablation filtering, cross-model saturation filtering, and anomaly detection filtering. We conduct extensive experiments on 27 leading LVLMs and compare MMGist with the raw pool of 23,250 items. The results show that MMGist preserves model rankings with high fidelity, with Spearman $ρ= 0.98$, while reducing evaluation items by 69\% and improving cross-model discrimination by 78\%. Further results indicate that Visual Logic remains a systematic weakness of current LVLMs, while knowledge-intensive dimensions such as Expert Knowledge dimensions remain important factors for distinguishing closed-source models from open-source models. These findings suggest that high-quality evaluation should prioritize visual dependency, discriminative power, and reliability, rather than simply pursuing benchmark scale.
- Abstract(参考訳): 我々は、広く使われている18の視覚言語ベンチマークの体系的研究を行い、3つの主要な問題を特定した。
1)多くの項目は視覚的手がかりに頼らず、それゆえにマルチモーダルな理解を効果的に測ることに失敗する。
2) 多くの商品は,その識別力を制限する現在のLVLMの性能飽和に既に近づいている。
3) 少数の異常項目が評価結果の信頼性に影響を及ぼす。
この目的のために、7つの機能ディメンションをカバーし、7,262個の項目を含むキュレートされたベンチマークであるMMGistを提案する。
MMGistは3段階のパイプラインで構築されており、テキストアブレーションフィルタリング、クロスモデル飽和フィルタリング、異常検出フィルタを順次組み合わせている。
我々は,27個のLVLMについて広範囲に実験を行い,MMGistと23250項目の生プールを比較した。
その結果,MMGistはSpearman $ρ=0.98$のモデルランクを保ちながら,評価項目を69\%削減し,モデル間差別を78\%改善した。
さらに、Visual Logicは現在のLVLMの体系的な弱点であり、エキスパート知識次元のような知識集約的な次元は、オープンソースモデルとクローズドソースモデルを区別する上で重要な要素であることを示している。
これらの結果から, 品質評価は, 単にベンチマーク尺度を追求するのではなく, 視覚的依存, 識別力, 信頼性を優先すべきであることが示唆された。
関連論文リスト
- PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies [16.537126902822127]
PRISMM-Benchは、科学論文において、実際のレビュアーがフラッグした不整合に基づいた最初のベンチマークである。
不整合同定、治療、ペアマッチングという3つのタスクを設計し、不整合の検出、修正、推論を行うモデルの能力を評価する。
我々は、大きなオープンウェイトモデル(GLM-4.5V 106B、InternVL3 78B)やプロプライエタリモデル(Gemini 2.5 Pro、GPT-5)を含む21のLMMをベンチマークした。
論文 参考訳(メタデータ) (2025-10-18T13:46:26Z) - Affordance Benchmark for MLLMs [38.62884479364572]
A4Bench**は,MLLMの2次元における空き知覚能力を評価するために設計された,新しいベンチマークである。
我々は17のMLLM(9つのプロプライエタリと8つのオープンソース)を評価し、それらを人的パフォーマンスと比較した。
結果として、プロプライエタリなモデルは一般的にオープンソースモデルよりも優れていますが、すべてのモデルは人間よりはるかに低いパフォーマンスを示します。
論文 参考訳(メタデータ) (2025-06-01T08:26:34Z) - Mitigating Social Bias in Large Language Models: A Multi-Objective Approach within a Multi-Agent Framework [39.16337169372118]
大規模言語モデル(LLM)における社会的バイアスを軽減するために,マルチエージェントフレームワーク(MOMA)内の多目的アプローチを提案する。
従来のデバイアス手法とは異なり、MOMAは下流タスクの精度を維持しながらバイアスを大幅に低減する。
論文 参考訳(メタデータ) (2024-12-20T02:35:39Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。