論文の概要: Afrispeech Semantics: Evaluating Audio Semantic Reasoning in Spoken Language Models Across Domains and Accents
- arxiv url: http://arxiv.org/abs/2606.11219v1
- Date: Mon, 11 May 2026 20:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.8462
- Title: Afrispeech Semantics: Evaluating Audio Semantic Reasoning in Spoken Language Models Across Domains and Accents
- Title(参考訳): Afrispeech Semantics:ドメインとアクセント間の音声言語モデルにおける音声セマンティック推論の評価
- Authors: Chibuzor Okocha, Christan Grant,
- Abstract要約: 音声言語モデル(ALM)は、音声に基づく理解にますます使われる。
アクセント変化, ドメインシフト, セマンティックオーバー推論が音声推論に与える影響はよく分かっていない。
5つの意味的・パラ言語的推論タスクにおける音声言語モデルの評価を行った。
- 参考スコア(独自算出の注目度): 3.6734440150955368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio language models (ALMs) are increasingly used for speech-based understanding, yet their ability to perform semantic reasoning beyond transcription, Text-to-Audio Retrieval, Captioning, and Question-Answering accuracy remains insufficiently benchmarked. In particular, the effects of accent variation, domain shift, and semantic over-inference on audio reasoning are poorly understood. We evaluate audio language models across five semantic and paralinguistic reasoning tasks: entailment, consistency, plausibility, accent drift, and accent restraint. Collectively, these tasks assess a model's ability to reason over spoken audio as the primary evidence source, including whether a textual hypothesis can be inferred, contradicted, or left undetermined by the audio, whether statements align or conflict with spoken content, whether claims are plausible given the discourse, and whether model predictions remain stable or appropriately constrained across accent variation. These findings highlight critical limitations in current audio reasoning evaluations and hope to provide guidance for more robust and equitable ALM design and assessment
- Abstract(参考訳): 音声言語モデル(ALM)は、音声による理解にますます使われてきているが、テキストから音声への検索、キャプション、質問応答の精度は、まだ十分にベンチマークされていない。
特に、アクセント変動、ドメインシフト、意味的過剰推論が音声推論に与える影響はよく分かっていない。
我々は,5つの意味的・パラ言語的推論タスク(エンテーメント,一貫性,可視性,アクセントドリフト,アクセント抑制)にまたがる音声言語モデルを評価する。
これらのタスクは、テキスト仮説が音声によって推論されるか、矛盾するか、あるいは未決定のままにされているか、言明が音声コンテンツと一致しているか、主張が会話によって妥当かどうか、モデル予測がアクセント変動によって安定的か、適切に制約されているか、といった主要な証拠源として、モデルが判断する能力を評価する。
これらの知見は、現在の音声推論評価における限界を強調し、より堅牢で公平なALM設計と評価のためのガイダンスを提供することを期待している。
関連論文リスト
- DEAF: A Benchmark for Diagnostic Evaluation of Acoustic Faithfulness in Audio Language Models [15.637236155997]
最近の音声マルチモーダル大言語モデル(Audio MLLMs)は,音声ベンチマークで顕著な性能を示した。
これらのモデルが真に音響信号を処理するのか、それともテキストベースの意味推論に依存しているのかは定かではない。
3次元にまたがる2700以上の衝突刺激のベンチマークであるDEAFを紹介する。
論文 参考訳(メタデータ) (2026-03-17T15:52:26Z) - On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech Foundation Models [22.710371114925763]
音声基礎モデル(SFM)は、中間テキスト表現をバイパスし、生音声から音声言語の直接処理を可能にする。
この能力により、SFMは入力音声信号に埋め込まれた豊富なパラ言語的バリエーションに露出し、潜在的に応答することができる。
本研究では,音質の合成を特徴とする新たな並列データセットを提案する。
論文 参考訳(メタデータ) (2025-10-29T14:44:44Z) - Benchmarking Contextual and Paralinguistic Reasoning in Speech-LLMs: A Case Study with In-the-Wild Data [46.12417789276609]
音声-LLMは、書き起こしや翻訳といったタスクにおいて顕著なパフォーマンスを示してきたが、社会的および感情的な知性に不可欠な音声のパラ言語的側面を理解することにはまだ限界がある。
文脈パラ言語推論における音声LLMの評価のためのベンチマークであるCP-Benchを提案する。
論文 参考訳(メタデータ) (2025-09-20T09:26:40Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - The Model Hears You: Audio Language Model Deployments Should Consider the Principle of Least Privilege [48.18013944679755]
最新の音声言語モデル(Audio LMs)は、別の転写ステップに頼るのではなく、音声を直接処理する。
このシフトは、イントネーションや複数の話者の存在などの詳細な情報を保存し、それ以外は転写で失われる。
また、話者アイデンティティーの手がかりや、他の機密性の高い発声特性の誤用など、新たな安全性リスクも導入されている。
論文 参考訳(メタデータ) (2025-03-21T04:03:59Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。