論文の概要: IMUG-Bench: Benchmarking Unified Multimodal Models on Interleaved Understanding and Generation
- arxiv url: http://arxiv.org/abs/2606.09169v1
- Date: Mon, 08 Jun 2026 08:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.822859
- Title: IMUG-Bench: Benchmarking Unified Multimodal Models on Interleaved Understanding and Generation
- Title(参考訳): IMUG-Bench: インターリーブ理解と生成のための統一マルチモーダルモデルのベンチマーク
- Authors: Lingyi Meng, Zecong Tang, Haoran Li, Tengju Ru, Zhejun Cui, Weitong Lian, Qi Kang, Hangshuo Cao, Yichen Zhu, Yechi Liu, Kaixuan Wang, Yu-Jie Yuan, Chunwei Wang, Yu Zhang, Bo Dai,
- Abstract要約: We propose IMUG-Bench, a benchmark for multi-turn interleaved image-text dialogue of unified multimodal model (UMMs)。
我々のIMUG-Benchは、静的空間、時間的因果、ハイブリッドの3つのクラスから構成されており、3,113のサンプルと12,034の相互作用ターンをカバーしています。
IMUG-Benchの大規模実験は、主流のオープンソースとクローズドソースのUMMを体系的に評価し、その機能境界と障害モードを明らかにし、マルチターン相互作用における生成側の顕著な露光バイアスを明らかにする。
- 参考スコア(独自算出の注目度): 30.102836710504565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, unified multimodal models (UMMs) have emerged to support both understanding and generation within a single framework. Mastering dynamic, multi-turn interleaved image-text dialogues is a crucial task for UMMs in real-world applications. However, existing benchmarks fail to evaluate this important task, as they are often limited to single-turn or static settings, and typically overlook exposure bias in multi-turn interactions. To bridge this gap, we propose IMUG-Bench, a comprehensive benchmark for multi-turn interleaved image-text dialogue of UMMs that jointly evaluates their understanding and generation capabilities. Our IMUG-Bench comprises three classes: Static Spatial, Temporal Causal, and Hybrid, covering 3,113 samples and 12,034 interaction turns. It also includes dynamic understanding questions, thereby supporting evaluation that better reflects real-world multi-turn interaction scenarios. Large-scale experiments on IMUG-Bench systematically evaluate mainstream open-source and closed-source UMMs, revealing their capability boundaries and failure modes, and uncovering pronounced exposure bias on the generation side in multi-turn interactions. We further explore several test-time scaling strategies, including Chain-of-Thought, Self-Verification, and Best-of-N Sampling, which effectively improve generation accuracy and mitigate exposure bias in generation tasks. These findings provide insights into enhancing the robustness and multi-turn interaction capability of future UMMs.
- Abstract(参考訳): 近年、統一マルチモーダルモデル (UMM) が登場し、単一のフレームワーク内での理解と生成の両方をサポートするようになった。
動的でマルチターンでインターリーブされた画像テキスト対話をマスターすることは、現実のアプリケーションにおいてUMMにとって重要な課題である。
しかしながら、既存のベンチマークでは、シングルターンや静的な設定に制限されることが多いため、この重要なタスクを評価することができない。
このギャップを埋めるため,UMMのマルチターンインターリーブ画像テキスト対話のための総合ベンチマークであるIMUG-Benchを提案する。
我々のIMUG-Benchは、静的空間、時間的因果、ハイブリッドの3つのクラスから構成されており、3,113のサンプルと12,034の相互作用ターンをカバーしています。
動的理解の質問も含み、現実世界のマルチターンインタラクションのシナリオをよりよく反映した評価をサポートする。
IMUG-Benchの大規模実験は、主流のオープンソースとクローズドソースのUMMを体系的に評価し、その機能境界と障害モードを明らかにし、マルチターン相互作用における生成側の顕著な露光バイアスを明らかにする。
さらに、生成タスクにおける露出バイアスを効果的に改善する、Chain-of-Thought、Self-Verification、Best-of-N Smplingなどのテストタイムスケーリング戦略についても検討する。
これらの知見は、将来のUMMの堅牢性とマルチターン相互作用能力の向上に関する洞察を与える。
関連論文リスト
- UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark [72.37370242707432]
本稿では,Unified Any-to-Any Interleaved MultimodalデータセットであるUniMベンチマークを紹介する。
UniMには30ドメインにわたる31Kの高品質インスタンスと7つの代表モダリティが含まれている。
セマンティック・コヒーレンス(Semantic Correctness & Generation Quality)、応答構造整合性(Re Response Structure Integrity)、インターリーブド・コヒーレンス(Interleaved Coherence)という3次元のモデルを評価する。
論文 参考訳(メタデータ) (2026-03-05T11:45:16Z) - UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models [8.08979200534563]
現実世界のアプリケーションは洗練されたマルチターンインタラクションを必要とする。
大規模言語モデル(LLM)の最近の進歩は、シングルターンタスクを扱う能力に革命をもたらした。
論文 参考訳(メタデータ) (2025-04-07T04:00:08Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。