Fugu-MT 論文翻訳(概要): HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems

論文の概要: HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems

arxiv url: http://arxiv.org/abs/2606.23048v1
Date: Mon, 22 Jun 2026 08:57:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 00:32:40.523876
Title: HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems
Title（参考訳）: HALAS: 現代のASRシステムにおける幻覚の人間の注釈付きデータセット
Authors: Mateusz Barański, Jan Jasiński, Julitta Bartolewska, Marcin Witkowski, Konrad Kowalczyk,
Abstract要約: HALASは、7つの最先端のAIRモデルから発生した自然発生幻覚の人間による最初のデータセットである。 HALASを用いたベンチマークでは、幻覚検出のプロキシとして使用される文字レベルと意味レベルが81% ROC-AUCに達することが示されている。
参考スコア（独自算出の注目度）: 13.55239135877789
License: http://creativecommons.org/licenses/by/4.0/
Abstract: End-to-end Automatic Speech Recognition (ASR) systems hallucinate on natural speech, yet existing mitigation methods are typically evaluated on non-speech or artificially corrupted audio. We introduce HALAS, the first human-annotated dataset of naturally occurring hallucinations from seven state-of-the-art ASR models on real unprocessed earnings call recordings. HALAS provides span-level labels, enabling analysis of hallucination patterns and their severity. Our analysis reveals strong cross-model vocabulary overlap and confirms that hallucinations also occur for almost correctly transcribed speech (characterized by a low Word Error Rate). The proposed benchmark with HALAS shows that the character and semantic-level metrics used as a proxy for hallucination detection reach 81% ROC-AUC, while state-of-the-art detection methods achieve an F1 score of only 53.1%. As such, HALAS establishes the first rigorous non-artificial benchmark for the detection and mitigation of ASR hallucinations.
Abstract（参考訳）: エンド・ツー・エンド自動音声認識(英語版)(ASR)システムは自然言語に幻覚を与えるが、既存の緩和法は一般に非音声または人工的な音声で評価される。 HALASは、実際の未処理の収支記録に、7つの最先端のAIRモデルから自然発生の幻覚を示す最初の人為的なデータセットである。 HALASは、幻覚パターンとその重症度の分析を可能にするスパンレベルのラベルを提供する。分析の結果, 単語誤り率の低さから, ほぼ正しく書き起こされた音声にも幻覚が生じることが確認された。 HALASを用いたベンチマークでは、幻覚検出のプロキシとして使用される文字レベルと意味レベルが81% ROC-AUCに達し、最先端検出手法では53.1%のスコアしか得られていない。そのため、HALASはASR幻覚の検出と緩和のための厳密な非人工的なベンチマークを確立している。

関連論文リスト

Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps [1.8825446478246406]
音声大言語モデル(SpeechLLMs)における幻覚は重大なリスクを伴うが、既存の検出方法は、コストがかかるか現実的でない金標準出力に依存している。本研究は,幻覚に関連する病的注意パターンを捉えるために,AuDIORATIO,AUDIOCONSISTENCY,AUDIOENTROPY,TEXTENTROPYの4つの注意指標について検討した。自動音声認識と音声からテキストへの翻訳作業は,不確実性に基づくベースラインや,それ以前のアテンションに基づくベースラインよりも優れていた。
論文参考訳（メタデータ） (2026-04-21T15:18:10Z)
Hallucination Benchmark for Speech Foundation Models [33.92968426403491]
自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
論文参考訳（メタデータ） (2025-10-18T16:26:16Z)
Mitigating Object Hallucinations via Sentence-Level Early Intervention [10.642552315531404]
マルチモーダルな大言語モデル(MLLM)は、多モーダルな理解に革命をもたらしたが、幻覚と闘い続けている。人間のアノテーションに依存しないフレームワークであるSENTINELを提案する。文レベルの早期iNtervention through IN- domain preference Learningは、オリジナルのモデルと比較して幻覚を90%以上減らすことができる。
論文参考訳（メタデータ） (2025-07-16T17:55:43Z)
HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-24T13:40:27Z)
Lost in Transcription, Found in Distribution Shift: Demystifying Hallucination in Speech Foundation Models [36.327525062842724]
幻覚は特に医療、法務、航空などの高額な領域に関係している。本研究では,分布変化やモデルサイズ,モデルアーキテクチャなどの要因が幻覚発生誤差率(HER)にどのように影響するかを検討する。我々の研究は、ASRモデルの性能を評価するために、WERのような従来の指標とHERを併用することの重要性を強調した。
論文参考訳（メタデータ） (2025-02-18T01:25:39Z)
Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文参考訳（メタデータ） (2024-01-12T19:02:48Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。