論文の概要: GlobeAudio: A Multilingual Multicultural Benchmark for Naturalistic Evaluation of Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2606.08194v1
- Date: Sat, 06 Jun 2026 14:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.902133
- Title: GlobeAudio: A Multilingual Multicultural Benchmark for Naturalistic Evaluation of Large Audio-Language Models
- Title(参考訳): GlobeAudio:大規模オーディオ言語モデルの自然性評価のための多言語多文化ベンチマーク
- Authors: Ryner Tan, Wenxuan Zhang,
- Abstract要約: LALM(Large Audio-Language Models)は、音声認識と言語理解を統一されたフレームワークに統合する。
近年の進歩にもかかわらず、LALMの評価は現実世界の要求に対して非常に過小評価されている。
自然主義的音声理解を評価するためのベンチマークであるGlobeAudioを提案する。
- 参考スコア(独自算出の注目度): 15.48775980389557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) integrate audio perception and language understanding within a unified framework, enabling a wide range of real-world applications. Despite recent advances, evaluation for LALMs remains heavily underspecified relative to real-world requirements: most lack true linguistic and cultural authenticity, while others fail to capture acoustic realism. To bridge this gap, we propose GlobeAudio, a multilingual and multicultural benchmark designed to evaluate naturalistic audio understanding. GlobeAudio consists of 5,637 multiple-choice questions across six typologically diverse languages, expertly crafted by native speakers grounded on naturally occurring audio. In order to do well, models must possess higher-level auditory reasoning skills and culturally grounded interpretation. We systematically evaluate representative closed-source and open-source LALMs, as well as cascaded ASR-LLM pipelines. Our experiments reveal substantial performance gaps under natural acoustic conditions, particularly for open-source models and low-resource languages. These findings highlight critical limitations of current LALMs and underscore the importance of naturalistic audio evaluation for future audio-language systems. GlobeAudio can be found at https://huggingface.co/datasets/iNLP-Lab/GlobeAudio .
- Abstract(参考訳): LALM(Large Audio-Language Models)は、音声認識と言語理解を統合されたフレームワークに統合し、幅広い現実世界のアプリケーションを可能にする。
近年の進歩にも拘わらず、LALMの評価は現実の要求に対して非常に過小評価されている。
このギャップを埋めるために,自然主義的音声理解を評価するための多言語・多文化ベンチマークGlobeAudioを提案する。
GlobeAudioは6つの言語にまたがる5,637の質問からなる。
うまく行くためには、モデルは高いレベルの聴覚的推論スキルと文化的に根ざした解釈を持っていなければならない。
我々は,ASR-LLMパイプラインと同様に,オープンソースとオープンソースの代表的LALMを体系的に評価した。
実験により, 自然音響条件下では, 特にオープンソースモデルや低リソース言語において, 顕著な性能ギャップが明らかとなった。
これらの知見は,現在のLALMの限界を浮き彫りにして,将来的な音声言語システムにおける自然主義的音声評価の重要性を浮き彫りにしている。
GlobeAudioはhttps://huggingface.co/datasets/iNLP-Lab/GlobeAudioで見ることができる。
関連論文リスト
- VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech [50.73412962989565]
LALM(Large Audio-Language Models)は、日々のアプリケーションにますます統合されているが、その生成バイアスは未発見のままである。
本研究では、実世界の人間記録を用いて、パーソナライズされたレコメンデーションなどのオープンなタスクを通じて生成バイアスを評価する枠組みを提案する。
ジェンダー・キューはアクセント・キューよりも大きな分布シフトを引き起こすことが多く、現在のLALMは社会的ステレオタイプを再現することを示している。
論文 参考訳(メタデータ) (2026-04-19T04:22:47Z) - SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases [27.340743922132067]
SCENEBenchは、背景音の理解、雑音の局所化、言語間音声の理解、発声者認識という4つの現実世界のカテゴリーにまたがる音声理解の幅広い形態をターゲットにしている。
このベンチマークスイートの目的は、発言される単語だけでなく、その発言の仕方や音声の非音声成分を評価することである。
我々は5つの最先端のLALMを評価し、重要なギャップを見出す: タスクによってパフォーマンスが異なり、いくつかのタスクはランダムな確率以下で実行され、他のタスクは高い精度を達成する。
論文 参考訳(メタデータ) (2026-03-10T16:15:12Z) - Bias in the Ear of the Listener: Assessing Sensitivity in Audio Language Models Across Linguistic, Demographic, and Positional Variations [21.050704978484784]
我々は,Global MMLU Liteに基づく音声強調ベンチマークであるBiasInEarデータセットを構築し,リリースする。
言語的(言語とアクセント)、人口統計学的(ジェンダー)、構造的(選択順序)摂動の9つの代表モデルを評価する。
以上の結果から,MLLMは人口統計学的要因に対して比較的頑健であるが,言語や選択肢の順序に非常に敏感であることが明らかとなり,既存の構造バイアスを増幅する可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-01T05:34:34Z) - PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。
我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文 参考訳(メタデータ) (2025-11-05T22:09:53Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。