論文の概要: When Multiple Scripts Matter: Evaluating ASR in Clinical Settings
- arxiv url: http://arxiv.org/abs/2606.17826v1
- Date: Tue, 16 Jun 2026 11:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.412414
- Title: When Multiple Scripts Matter: Evaluating ASR in Clinical Settings
- Title(参考訳): 複数のスクリプトが重要である場合:臨床現場におけるASRの評価
- Authors: Jean Seo, Minkyu Kim, Jeonguk Lee, Jisoo Jung, Wooseok Han, Eunho Yang,
- Abstract要約: マルチスクリプト変数に対するロバスト性を評価するためのベンチマークであるMultiClinを紹介する。
多様なASRモデルに対する実験により、マルチスクリプト認識評価により、認識品質をより公平に評価できることが示されている。
スクリプト統一は、常に最高のASRパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 34.04832340475104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) in non-English clinical settings is challenged by multiscript variability, where the same term may appear in multiple valid orthographic forms. Conventional string-matching evaluation metrics often underestimate ASR performance by treating orthographic variants as errors. To address this issue, we introduce MultiClin, a clinical ASR benchmark designed to evaluate robustness to multiscript variability. Experiments across diverse ASR models show that multiscript-aware evaluation provides a fairer assessment of recognition quality than conventional single-reference evaluation. We further investigate the impact of script consistency during training and find that inconsistent script mappings increase orthographic uncertainty and hinder model convergence, with a balanced 50% mapping ratio producing the highest entropy. In contrast, script unification consistently yields the best ASR performance. Our dataset and code are publicly available at: https://github.com/aitrics-ronaldo/Interspeech_MultiClin.
- Abstract(参考訳): 非英語臨床環境での自動音声認識(ASR)は、複数の有効な正書法形式に同じ用語が現れるマルチスクリプトの可変性によって挑戦される。
従来の文字列マッチング評価指標は、直交変形を誤りとして扱うことにより、ASRの性能を過小評価することが多い。
この問題に対処するために,マルチスクリプト変数に対するロバスト性を評価するために,臨床ASRベンチマークであるMultiClinを紹介する。
多様なASRモデルに対する実験により、従来の単参照評価よりも、マルチスクリプト認識評価の方が認識品質を公平に評価できることが示された。
さらに、トレーニング中のスクリプト一貫性の影響について検討し、一貫性のないスクリプトマッピングが正書法の不確実性を高め、モデル収束を阻害し、バランスの取れた50%のマッピング比が最も高いエントロピーを生み出すことを確認する。
対照的に、スクリプトの統一は、常に最高のASRパフォーマンスをもたらす。
私たちのデータセットとコードは、https://github.com/aitrics-ronaldo/Interspeech_MultiClinで公開されています。
関連論文リスト
- SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation [0.8243795440723053]
Script-Normalized WER (SN-WER) は、トレーニングフリーで評価のみのスコアリング手法である。
SN-WERを5つのIndic言語、2つのデータセット、3つのASRモデルで評価した。
論文 参考訳(メタデータ) (2026-06-01T17:49:10Z) - Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation [53.844308305341166]
単一パスのASRフロントエンドと意味的訂正,意図のルーティング,推論に基づく編集を組み合わせた閉ループフレームワークである textbfAgentic ASR を提案する。
複数言語、名前付き集中型、コードスイッチングベンチマークの実験は、反復的相互作用が意味的誤りを一貫して減少させることを示している。
論文 参考訳(メタデータ) (2026-05-28T06:23:31Z) - Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition [52.63676763985825]
トークンレベルの精度を超えた認識品質を評価するための意味認識評価指標を提案する。
我々は,人間のようなマルチターンインタラクションをシミュレートするエージェント・フレームワークを設計し,認識出力の反復的改善を可能にする。
対話型およびエージェント型ASRにおける今後の研究を促進するためのコードをリリースする。
論文 参考訳(メタデータ) (2026-04-10T09:02:42Z) - UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities [70.79422099851506]
対話型AIシステム評価のための統合評価ツールキットUniDial-EvalKit(UDE)を提案する。
UDEは異種データフォーマットを普遍的なスキーマに標準化し、モジュールアーキテクチャを通じて複雑な評価パイプラインを合理化し、一貫したスコアリングインターフェースの下でメートル法計算を調整する。
論文 参考訳(メタデータ) (2026-03-24T13:01:31Z) - Style-agnostic evaluation of ASR using multiple reference transcripts [0.3066137405373616]
我々は、ASRシステムのスタイルに依存しない評価を行うことにより、これらの違いのいくつかを軽減することを試みる。
既存のWERレポートは、最先端のASRシステムによる競合エラーの数を大幅に過大評価している可能性が高い。
論文 参考訳(メタデータ) (2024-12-10T21:47:15Z) - What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - Word-level confidence estimation for RNN transducers [7.12355127219356]
本稿では、リカレント・ネットワーク・トランスデューサ(RNN-T)を用いた音声認識(ASR)システムに適した軽量神経信頼モデルを提案する。
他の既存手法と比較して,本モデルは, (a) 認識された単語に関連付けられた時間情報を用いて計算複雑性を低減し, (b) サブワードと単語列をマッピングするためのシンプルでエレガントなトリックを利用する。
論文 参考訳(メタデータ) (2021-09-28T18:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。