論文の概要: A Comparative Study of Pretrained Transformer Models for Quranic ASR: Speech Representations, Label Formats, and Dataset Composition
- arxiv url: http://arxiv.org/abs/2606.19747v1
- Date: Thu, 18 Jun 2026 03:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.629258
- Title: A Comparative Study of Pretrained Transformer Models for Quranic ASR: Speech Representations, Label Formats, and Dataset Composition
- Title(参考訳): クレーンASRのための事前学習型トランスフォーマーモデルの比較検討:音声表現、ラベルフォーマット、データセット構成
- Authors: Nabil Mosharraf Hossain, Riasat Islam, Unaizah Obaidellah,
- Abstract要約: Quran Automatic Speech Recognition (ASR) は、Quranicのリサイクリングをテキストに変換することを目的としており、補助記憶ツールやQuranic検索エンジンなどの応用を可能にする。
既存のASRモデルでは、ユーザーが暗唱した詩に対して高い単語誤り率(WER)を示し、クアニックコーパスを完全にカバーしていないことが多い。
本稿では,キラニアASRのための事前学習型トランスフォーマーモデルにおけるドメイン固有微調整の系統的研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quran Automatic Speech Recognition (ASR) aims to convert Quranic recitation into text, enabling applications such as aided memorisation tools and Quranic search engines. However, existing ASR models often exhibit high Word Error Rates (WER) on user-recited verses and lack full coverage of the Quranic corpus. This paper presents a systematic empirical study of domain-specific fine-tuning of pretrained Transformer-based models for Quranic ASR, using advanced speech feature extraction methods: Wav2Vec2.0, HuBERT, and XLS-R. These models apply self-supervised learning by masking portions of input audio and using Transformer architectures to learn context-aware speech features. The pretrained models are fine-tuned on a filtered Quranic dataset exceeding 870 hours of professional and user recitations. Through comprehensive ablation studies across feature extractors, output label formats, training strategies, and clip durations, we identify the key factors that affect transcription accuracy in this domain. Our best-performing configuration achieves a WER of 0.08 on the EveryAyah subset and 0.11 on the combined EveryAyah+Tarteel setting, representing roughly a five-percentage-point gain over the Citrinet baseline (WER = 0.163) while reducing combined-model training time from 140 hours to 40 hours. Arabic text without diacritics yields the best fine-tuning results, and Wav2Vec2-XLSR-53 provides the strongest overall representation. Future work includes improving dataset quality and developing phoneme-aware models to extract deeper speech feature representations for Tajweed-sensitive applications.
- Abstract(参考訳): Quran Automatic Speech Recognition (ASR) は、Quranicのリサイクリングをテキストに変換することを目的としており、補助記憶ツールやQuranic検索エンジンなどの応用を可能にする。
しかし、既存のASRモデルでは、ユーザーが暗唱した詩に対して高い単語誤り率(WER)を示し、クォーニックコーパスを完全にカバーしていないことが多い。
本稿では,先進的な音声特徴抽出手法である Wav2Vec2.0, HuBERT, XLS-R を用いて, 事前訓練したトランスフォーマーベースモデルのドメイン固有微調整に関する実験的検討を行った。
これらのモデルは、入力音声の一部をマスキングし、Transformerアーキテクチャを用いて文脈認識音声特徴を学習することにより、自己教師付き学習を適用する。
事前トレーニングされたモデルは、プロとユーザのリサイクリングの870時間を超えるフィルタリングされたクアニックデータセット上で微調整される。
特徴抽出器,出力ラベル形式,トレーニング戦略,クリップ期間の総合的アブレーション研究を通じて,本領域の転写精度に影響を与える重要な要因を同定する。
我々の最高性能構成は、EveryAyahサブセットで0.08、EveryAyah+Tarteel設定で0.11、Citrinetベースライン(WER=0.163)で約5パーセントのゲインを示し、総合モデルトレーニング時間を140時間から40時間に短縮する。
ダイアクリティカルスのないアラビア語のテキストは最高の微調整結果をもたらし、Wav2Vec2-XLSR-53は最も強力な全体表現を提供する。
今後の作業には、データセットの品質向上と、Tajweedに敏感なアプリケーションのためのより深い音声特徴表現を抽出する音素認識モデルの開発が含まれる。
関連論文リスト
- Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens [62.56027815951259]
現在のオーディオ言語モデルは、主にテキストファーストであり、事前訓練されたテキストLLMバックボーンを拡張するか、意味のみのオーディオトークンに依存する。
本稿では,大規模音声に次トーケン予測を適用したネイティブオーディオ基礎モデルの系統的研究を行った。
論文 参考訳(メタデータ) (2026-02-18T18:32:46Z) - Automatic Pronunciation Error Detection and Correction of the Holy Quran's Learners Using Deep Learning [0.0]
高品質なQuranicデータセットを生成するために、98%の自動パイプラインを構築しています。
私たちはカスタムのQuran Phonetic Scriptを使ってTajweedルールをエンコードしています。
すべてのコード、データ、モデルをオープンソースとしてリリースしています。
論文 参考訳(メタデータ) (2025-08-27T15:28:46Z) - A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data [46.73430446242378]
本稿では,ラベルのないデータセットのみを用いて,ASR性能を向上させる自己精錬フレームワークを提案する。
台湾語マンダリン音声における枠組みの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-10T17:30:32Z) - QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based
Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。
本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T14:13:26Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Text-To-Speech Data Augmentation for Low Resource Speech Recognition [0.0]
本研究では,ASRモデルの改良を目的としたデータ拡張手法を提案する。
ケチュア語のコーパスを用いて実験を行った。
ASRモデルの単語誤り率(WER)の8.73%の改善は、合成テキストと合成音声の組み合わせを用いて得られる。
論文 参考訳(メタデータ) (2022-04-01T08:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。