論文の概要: AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs
- arxiv url: http://arxiv.org/abs/2606.07643v1
- Date: Mon, 01 Jun 2026 19:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.179298
- Title: AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs
- Title(参考訳): AVI-Bench:Omni-MLLMのヒューマンライクなオーディオビジュアルインテリジェンスを目指して
- Authors: Yaoting Wang, Ziyi Zhang, Wenming Tu, Shaoxuan Xu, Wenjie Du, Cheng Liang, Weijun Wang, Yuanchao Li, Guangyao Li, Hao Fei, Yuanchun Li, Henghui Ding, Yunxin Liu,
- Abstract要約: 我々は,Omni-MLLMを3段階,認識,理解,推論の3段階にわたって評価するベンチマークを導入する。
AVI-Benchは、モデル機能と障害モードのきめ細かい診断を可能にする。
PriSeは、未知の低セマンティック刺激を用いて、モデルの原始的な視覚感覚を探索する。
- 参考スコア(独自算出の注目度): 64.22272455664884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Omni-Multimodal Large Language Models (Omni-MLLMs) have enabled strong integration of vision, audio, and language. However, their audio-visual intelligence (AVI) remains insufficiently evaluated due to the lack of systematic and comprehensive benchmarks. We introduce AVI-Bench, a cognitively inspired benchmark that evaluates Omni-MLLMs across three stages, perception, understanding, and reasoning, through cross-modal tasks requiring joint audio-visual interpretation. This design enables fine-grained diagnosis of model capabilities and failure modes. To further assess robustness beyond familiar domains, we propose AVI-Bench-PriSe, an extension that probes models' primitive audio-visual sensation using unfamiliar, low-semantic stimuli, testing generalization beyond common training distributions. Extensive experiments on both open-source and closed-source models reveal substantial limitations in current Omni-MLLMs. Based on these findings, we present a four-level AVI taxonomy. Overall, AVI-Bench provides a principled evaluation framework to guide the development of more robust and generalizable AVI. Project website: https://fudancvl.github.io/AVI-Bench/
- Abstract(参考訳): Omni-Multimodal Large Language Models (Omni-MLLMs) の最近の進歩は、視覚、音声、言語を強力な統合を可能にしている。
しかし、そのオーディオ視覚インテリジェンス(AVI)は、体系的で包括的なベンチマークが欠如しているため、十分に評価されていない。
我々は,Omni-MLLMを3段階,知覚,理解,推論の3段階にわたって評価する,認知にインスパイアされたベンチマークであるAVI-Benchを紹介した。
この設計により、モデル機能と障害モードのきめ細かい診断が可能になる。
AVI-Bench-PriSeは、慣れ親しんだ領域を超えたロバスト性を評価するために、慣れ親しんだ低セマンティックな刺激を用いて、モデルの原始的な視覚感覚を探索し、一般的なトレーニング分布を超えた一般化をテストする拡張である。
オープンソースモデルとクローズドソースモデルの両方に対する大規模な実験は、現在のOmni-MLLMにかなりの制限を課している。
以上より,4段階のAVI分類を施行した。
全体として、AVI-Benchはより堅牢で一般化可能なAVIの開発を導くための、原則化された評価フレームワークを提供する。
プロジェクトウェブサイト:https://fudancvl.github.io/AVI-Bench/
関連論文リスト
- OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - B-AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Black-box Adversarial Visual-Instructions [73.97665608366447]
LVLM(Large Vision-Language Models)は、ユーザからの視覚的指示に応答する上で、大きな進歩を見せている。
画像とテキストを含むこれらの命令は、意図的および意図しない攻撃の両方に影響を受けやすい。
B-AVIBenchは,様々なブラックボックス・アドミラル・ビジュアル・インストラクションに直面する場合のLVLMのロバスト性を解析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。