論文の概要: ParaPairAudioBench: Paralinguistic Pairwise Audio Benchmark for LALM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2606.24648v1
- Date: Tue, 23 Jun 2026 14:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.019001
- Title: ParaPairAudioBench: Paralinguistic Pairwise Audio Benchmark for LALM-as-a-Judge
- Title(参考訳): ParaPairAudioBench: LALM-as-a-Judgeのためのパラ言語的ペアワイズオーディオベンチマーク
- Authors: Jisu Jeon, Seungyeon Jwa, Joosung Lee, Jinhyeon Kim, Woojin Chung, Hwiyeol Jo, Jeonghoon Kim, Jonghyun Choi, Soyoon Kim,
- Abstract要約: ParaPairAudioBenchは、5つのパラ言語的次元(スタイル、レート、強調、年齢、ジェンダー)にわたる5,175のオーディオペアのペアベンチマークである。
実験によると、現在のLALMの審査員は平均で32%の差で人間の判断に遅れており、厳しい校正の失敗を示している。
- 参考スコア(独自算出の注目度): 30.520810407664072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio-Language Models (LALMs) have been widely used as judge models for the automatic evaluation of generated speech. However, prior approaches predominantly focus on holistic naturalness, leaving fine-grained paralinguistic distinctions underexplored. We introduce ParaPairAudioBench, a pairwise benchmark of 5,175 audio pairs across five paralinguistic dimensions: Style, Rate, Emphasis, Age, and Gender. Our experiments show that current LALM judges still lag behind human judgments by 32%p on average and exhibit severe calibration failures, particularly in Tie cases where the correct decision is to abstain. To further analyze lexical versus acoustic reliance, the benchmark includes both same-transcript and cross-transcript conditions. ParaPairAudioBench enables multi-dimensional, calibration-aware assessment of the reliability of LALM-as-a-Judge for paralinguistic speech evaluation.
- Abstract(参考訳): LALM(Large Audio-Language Models)は,音声の自動評価のための判断モデルとして広く利用されている。
しかし、それまでのアプローチは、主に全体論的自然性に焦点が当てられ、詳細なパラ言語学的な区別が未発見のまま残されている。
ParaPairAudioBenchは、5つのパラ言語的次元(スタイル、レート、強調、年齢、ジェンダー)にわたる5,175のオーディオペアのペアベンチマークである。
我々の実験によると、現在のLALM判事は平均で32%の差で人間の判断に遅れており、特に正しい判断を下すタイのケースでは、厳しい校正の失敗を示しています。
さらに語彙と音響の信頼度を分析するため、ベンチマークには同じ転写条件とクロス転写条件の両方が含まれている。
ParaPairAudioBenchは、パラ言語音声評価のためのLALM-as-a-Judgeの信頼性を多次元で校正可能な評価を可能にする。
関連論文リスト
- All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation [45.45465533352999]
大規模オーディオ言語モデルは、音声と音声のベンチマークで一貫したパフォーマンス向上を示すが、高いスコアは真の聴覚知覚を反映していないかもしれない。
本稿では,テキストと一般知識のみから応答可能性を測定するテキスト先行法と,音響信号への実際の依存度を評価するオーディオ依存法という,2つの軸を用いた診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-27T12:25:18Z) - SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation [46.48800527703154]
SpeechParaling-Benchは、パラ言語対応音声生成のための総合的なベンチマークである。
既存のカバレッジを50未満から100以上のきめ細かい機能に拡張する。
微粒化制御、発声内変動、文脈認識適応の3つの課題に分けられる。
論文 参考訳(メタデータ) (2026-04-22T17:59:58Z) - SpeakerSleuth: Evaluating Large Audio-Language Models as Judges for Multi-turn Speaker Consistency [12.420484491347073]
LALMがマルチターン対話における話者の一貫性を確実に判断できるかどうかを評価するベンチマークである SpeakerSleuth を提案する。
合成音声と実音声を対象とする4つの多種多様なデータセットを対象とした1,818の人間検証評価インスタンスを構築した。
モデルは音響的不整合を確実に検出するのに苦労している。
論文 参考訳(メタデータ) (2026-01-07T15:45:41Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。