論文の概要: OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics
- arxiv url: http://arxiv.org/abs/2606.21237v1
- Date: Fri, 19 Jun 2026 09:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 07:15:33.59606
- Title: OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics
- Title(参考訳): OpenWER: 言語間ASR評価の改善とトークンベースの精度指標の実現
- Authors: Korbinian Kuhn, Gottfried Zimmermann,
- Abstract要約: We present OpenWER, a open-source implementation that improves WER robustness through language-specific normalization and compound word detection。
トークンベースのLevenshteinアライメントは相補的なメトリクスを保持し、メタデータの埋め込みを可能にする。
52言語を解析した結果,共通ライブラリと比較してWERが最大25%削減された。
- 参考スコア(独自算出の注目度): 10.517590585683596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in deep learning and end-to-end Automatic Speech Recognition (ASR) have enabled robust multilingual models, but evaluation metrics remain limited in assessing accuracy. Efforts to improve or replace the common metric Word Error Rate (WER) often focus on English, leaving evaluations for low-resource languages under-explored and hindering fair cross-lingual comparisons. We present OpenWER, an open-source implementation that improves WER robustness through language-specific normalisation and compound word detection. A token-based Levenshtein alignment preserves complementary metrics and allows metadata embedding for granular accuracy scores. Our analysis of 52 languages shows absolute WER reductions of up to 25% compared to common libraries. OpenWER contributes to fairness in ASR research by increasing the reliability of WER across diverse languages and enabling more comprehensive accuracy evaluations.
- Abstract(参考訳): ディープラーニングとエンドツーエンド自動音声認識(ASR)の進歩により、堅牢な多言語モデルが可能になったが、評価基準は精度の評価に限られている。
共通の指標であるWord Error Rate(WER)を改善し、置き換えようとする試みは、しばしば英語に焦点を合わせ、低リソース言語に対する評価は未探索であり、言語間比較を公正に妨げている。
We present OpenWER, a open-source implementation that improves WER robustness through language-specific normalization and compound word detection。
トークンベースのLevenshteinアライメントは相補的なメトリクスを保持し、メタデータの埋め込みを可能にする。
52言語を解析した結果,共通ライブラリと比較してWERが最大25%削減された。
OpenWERは、様々な言語にわたるWERの信頼性を高め、より包括的な精度評価を可能にすることにより、ASR研究の公正性に貢献している。
関連論文リスト
- XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics [64.77152900881724]
9つの翻訳方向をカバーする半自動構築データセットであるXQ-MEvalを提案する。
MQMで定義されたエラーを金の翻訳に自動的に注入し、信頼性のためにネイティブスピーカーによってフィルタリングし、エラーをマージして、制御可能な品質で擬似翻訳を生成する。
XQ-MEvalを用いて, 平均的判断と人的判断の矛盾を明らかにする。
論文 参考訳(メタデータ) (2026-04-16T12:27:10Z) - Translation or Recitation? Calibrating Evaluation Scores for Machine Translation of Extremely Low-Resource Languages [39.985923582735936]
FREDの難易度はF(F)、Retrieval Proxy(R)、Pre-training Exposure(E)、Corpus Diversity(D)を含む。
これらの測定結果から、結果のばらつきの大部分は、モデル能力よりも、列車とテストの重複と事前訓練による露光によって説明されていることが分かる。
論文 参考訳(メタデータ) (2026-03-26T09:20:17Z) - Investigating the Multilingual Calibration Effects of Language Model Instruction-Tuning [58.355275813623685]
本研究は,多言語設定における大規模言語モデル(LLM)の校正における重要なギャップについて考察する。
低リソース言語であっても、高リソース言語SFTデータセットのインストラクションチューニング後にモデルの信頼性が著しく向上する可能性がある。
しかし、精度の改善は限界的あるいは存在しないものであり、多言語言語における標準SFTの重大な欠点を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-04T04:29:12Z) - A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: Performance, Consistency, and Faithfulness Across Languages [48.68444770923683]
マルチリンガル・チェーン・オブ・ソート(CoT)推論の最初の包括的研究について述べる。
LRMがターゲット言語ですぐに考えることができる場合、言語コンプライアンス、解答精度、解答一貫性を計測する。
思考の痕跡の質と有効性は、素早い言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-10-10T17:06:50Z) - CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。
我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文 参考訳(メタデータ) (2025-07-28T12:01:59Z) - Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。