論文の概要: Massive Open-Vocabulary Keyword Spotting
- arxiv url: http://arxiv.org/abs/2606.11279v1
- Date: Tue, 09 Jun 2026 12:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.106686
- Title: Massive Open-Vocabulary Keyword Spotting
- Title(参考訳): 大規模オープン語彙キーワードスポッティング
- Authors: Leonor Barreiros, Raul Monteiro, Afonso Mendes, Gonçalo M. Correia,
- Abstract要約: 本稿では,メモリフットプリントを持つ機能を,同等のベースラインよりも最大128倍小さく格納するシステムを提案する。
我々のシステムは、トレーニング中に見られない言語でも、圧縮されていないソリューションとして同等のエンティティリコールを実現している。
- 参考スコア(独自算出の注目度): 2.8582274879786684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition systems have been shown to under-perform when it comes to transcribing words rarely seen in the training data, namely specialized terminology. Open-vocabulary keyword spotting, combined with contextual biasing, has been shown to mitigate this issue. However, existing systems can only handle glossaries of a few hundred terms without becoming an infeasible bottleneck. We propose a system that stores features with a memory footprint up to 128 times smaller than a comparable baseline and allows users to process massive databases while remaining open-vocabulary. Without fine-tuning the speech recognition model, our system achieves a comparable entity recall as uncompressed solutions, even in languages not seen during training.
- Abstract(参考訳): 訓練データ(特に専門用語)にはほとんど見られない単語の書き起こしに関しては,音声認識システムの性能が低いことが示されている。
オープン語彙キーワードスポッティングと文脈バイアスを組み合わせることで、この問題を軽減することが示されている。
しかし、既存のシステムは数百の用語の用語集しか扱えない。
メモリフットプリントを持つ機能を,同等のベースラインの最大128倍の規模で格納し,オープン語彙を維持しながら大規模データベースを処理できるシステムを提案する。
音声認識モデルを微調整することなく、トレーニング中に見られない言語であっても、我々のシステムは、圧縮されていないソリューションとして同等のエンティティリコールを達成している。
関連論文リスト
- Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [61.601626186678146]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
本手法により, 単語誤り率の相対的な改善を最大8%まで達成し, 単語誤り率の競争力を維持した。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。