論文の概要: IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages
- arxiv url: http://arxiv.org/abs/2606.19157v1
- Date: Wed, 17 Jun 2026 14:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.225806
- Title: IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages
- Title(参考訳): IndicContextEval:8つのインデックス言語にわたるオーディオ大言語モデルの文脈利用評価ベンチマーク
- Authors: Sakshi Joshi, Dhruv Subhash Rathi, Sanskar Singh, Eldho Ittan George, R J Hari, Kaushal Bhogale, Mitesh M. Khapra,
- Abstract要約: IndicContextEvalは、8つのインド語と23の専門ドメインにわたる555人の話者による56時間の自然言語のマルチリンガルベンチマークである。
本稿では,メタデータや自然言語記述,英語およびネイティブスクリプトのエンティティリスト,不正なエンティティによる敵プロンプトなど,文脈的シグナルを段階的に導入する7レベルプロンプトフレームワークを設計する。
- 参考スコア(独自算出の注目度): 14.493891863635556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AudioLLMs enable speech recognition conditioned on textual prompts such as domain descriptions or entity lists. However, it remains unclear whether these models genuinely utilise such context or rely on parametric knowledge learned during pretraining. Existing benchmarks cannot answer this question because they evaluate transcription under fixed prompting conditions and rarely include explicit contextual inputs. We introduce IndicContextEval, a 56-hour multilingual benchmark of natural speech from 555 speakers across 8 Indian languages and 23 professional domains. We design a 7-level prompting framework that progressively introduces contextual signals, including metadata, natural-language descriptions, entity lists in English and native script, and adversarial prompts with incorrect entities. Evaluating five models reveals substantial differences in context utilisation behaviour, highlighting the need for explicit evaluation of contextual grounding in AudioLLMs.
- Abstract(参考訳): AudioLLMは、ドメイン記述やエンティティリストなどのテキストプロンプトに条件付けされた音声認識を可能にする。
しかし、これらのモデルが実際にそのような文脈を利用するのか、事前訓練中に学んだパラメトリック知識に依存しているのかは不明だ。
既存のベンチマークでは、固定されたプロンプト条件下での書き起こしを評価し、明示的な文脈入力をほとんど含まないため、この質問に答えることができない。
IndicContextEvalは、8つのインド語と23の専門ドメインにわたる555人の話者による56時間の自然言語のマルチリンガルベンチマークである。
本稿では,メタデータや自然言語記述,英語およびネイティブスクリプトのエンティティリスト,不正なエンティティによる敵プロンプトなど,文脈的シグナルを段階的に導入する7レベルプロンプトフレームワークを設計する。
5つのモデルを評価することは、AudioLLMのコンテキストグラウンドの明示的な評価の必要性を強調しながら、コンテキスト利用行動のかなりの違いを明らかにしている。
関連論文リスト
- Afrispeech Semantics: Evaluating Audio Semantic Reasoning in Spoken Language Models Across Domains and Accents [3.6734440150955368]
音声言語モデル(ALM)は、音声に基づく理解にますます使われる。
アクセント変化, ドメインシフト, セマンティックオーバー推論が音声推論に与える影響はよく分かっていない。
5つの意味的・パラ言語的推論タスクにおける音声言語モデルの評価を行った。
論文 参考訳(メタデータ) (2026-05-11T20:27:40Z) - Do What I Say: A Spoken Prompt Dataset for Instruction-Following [64.72383858691795]
DoWhatISay (DOWIS) は、人間の音声と文字によるプロンプトのデータセットである。
5つのスタイルで、タスク言語ペアごとに10のプロンプト変種を提供する。
DOWISを用いて最先端のSLLMをベンチマークし、即時モダリティ、スタイル、言語、タスクタイプ間の相互作用を分析する。
論文 参考訳(メタデータ) (2026-03-10T16:39:46Z) - Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning [5.770962296305264]
多様な言語とアクセントをサポートするコンテキスト対応多言語ASRフレームワークを提案する。
提案手法は,フリーズした音声エンコーダと,軽量プロジェクションモジュールによるデコーダのみの言語モデルを組み合わせたものである。
文脈入力は認識品質を継続的に改善することを示す。
論文 参考訳(メタデータ) (2026-03-06T17:37:06Z) - Multilingual Extraction and Recognition of Implicit Discourse Relations in Speech and Text [2.8547732086436306]
暗黙の談話関係分類は文脈から意味を推測する必要があるため、難しい課題である。
本稿では,英語,フランス語,スペイン語の暗黙的談話関係のための多言語・多モーダルデータセットを構築するために,遠隔関係および非関連言語ペアの自動手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T22:50:27Z) - On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。