論文の概要: From Speech to Text Corpora: Evaluating ASR-Based Data Acquisition for Low-Resource Fongbe and Hausa
- arxiv url: http://arxiv.org/abs/2606.22274v1
- Date: Sat, 20 Jun 2026 23:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 19:26:22.940355
- Title: From Speech to Text Corpora: Evaluating ASR-Based Data Acquisition for Low-Resource Fongbe and Hausa
- Title(参考訳): 音声からテキストコーパスへ:低電源フォンベとハウサのためのASRに基づくデータ取得の評価
- Authors: Mahounan Pericles Adjovi, Victor Olufemi, Roald Eiselen, Prasenjit Mitra,
- Abstract要約: ASRパイプラインが2つのタイプ別西アフリカ言語のためのテキストリソースを拡張できるかどうかを検討する。
我々は12.3時間のFongbeデータセットでMMS-300Mを微調整し、ALFFAベンチマークで9.48%のWERを達成した。
我々は1,553本のYouTube動画(236時間)をカタログ化し、424本の動画(45.49時間)のサブセットを処理し、ドメインの多様性と利用可能な計算資源のバランスをとる。
言語毎の50のランダムサンプリングセグメントに対する人間による評価は、Hausaでは57.4/100、Fongbeでは36.5/100の平均品質スコアを示している。
- 参考スコア(独自算出の注目度): 11.053174014226078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource African languages lack text corpora needed for language model training. We investigate whether ASR pipelines can extend text resources for two typologically distinct West African languages: Fongbe (tonal, diacritic-rich) and Hausa (non-tonal). We fine-tune MMS-300M on a curated 12.3-hour Fongbe dataset, achieving 9.48% WER on the ALFFA benchmark - a 78% relative reduction from the prior 44.04% baseline - while preserving tonal diacritics critical to the language. For Hausa, we apply an existing fine-tuned Whisper-Small model. We catalog 1,553 YouTube videos (236 hours) and process a subset of 424 videos (45.49 hours) selected to balance domain diversity with available computational resources, producing 6,770 transcribed segments. Human evaluation on 50 randomly sampled segments per language shows mean quality scores of 57.4/100 for Hausa and 36.5/100 for Fongbe, indicating that while Hausa transcriptions approach acceptable quality for corpus construction, Fongbe transcriptions require post-processing or improved models for production use. We release the curated dataset, fine-tuned model, transcribed corpus, and full video catalog following platform terms and ethical guidelines.
- Abstract(参考訳): 低リソースのアフリカ言語には、言語モデルのトレーニングに必要なテキストコーパスがない。
我々は,ASRパイプラインが2つのタイプ別西アフリカの言語,フォンベ (トン, ダイアクリティカルリッチ) とハウサ (ノントン) のテキストリソースを拡張できるかどうかを検討する。
ALFFAベンチマークでは9.48%のWERを達成し、前回の44.04%のベースラインから78%の削減を実現しました。
ハウサに対しては、既存の微調整Whisper-Smallモデルを適用する。
我々は1,553本のYouTube動画(236時間)をカタログ化し、424本の動画(45.49時間)のサブセットを処理し、ドメインの多様性と利用可能な計算資源のバランスを取り、6,770本の転写されたセグメントを生成する。
言語毎の50のランダムサンプリングセグメントに対する人間による評価は、ハウサでは57.4/100、フォンベでは36.5/100であり、ハウサ文字がコーパス構築では許容される品質に近づく一方で、フォンベ文字は生産用に後処理または改良されたモデルを必要とすることを示している。
我々は、プラットフォーム用語と倫理ガイドラインに従って、キュレートされたデータセット、微調整されたモデル、転写コーパス、フルビデオカタログをリリースする。
関連論文リスト
- Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition [0.0]
本稿では,OpenAI Whisperモデルを微調整するためのデータ拡張手法について述べる。
スーダン方言の最初のベンチマークを確立している。
論文 参考訳(メタデータ) (2026-01-11T08:28:31Z) - DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation [111.94720088481614]
多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか?
6つの共通英語方言にまたがる大規模ベンチマークを構築した。
マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
論文 参考訳(メタデータ) (2025-10-16T17:56:55Z) - HausaMovieReview: A Benchmark Dataset for Sentiment Analysis in Low-Resource African Language [1.3465808629549525]
本稿では,Hausaにおける5000のYouTubeコメントとコードスイッチによる英語を含む新しいベンチマークデータセットを提案する。
このデータセットを用いて、古典モデルと微調整変換器モデルの比較分析を行う。
精度が89.72%、F1スコアが89.60%のDecision Tree分類器は、ディープラーニングモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-17T22:57:21Z) - Investigating the Impact of Language-Adaptive Fine-Tuning on Sentiment Analysis in Hausa Language Using AfriBERTa [2.5055584842618175]
感情分析(SA)は、自然言語処理(NLP)において、テキストで表される感情を識別することで重要な役割を担っている。
本研究では, 言語適応ファインチューニング(LAFT)の有効性について検討した。
論文 参考訳(メタデータ) (2025-01-19T11:52:46Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Effectiveness of Mining Audio and Text Pairs from Public Data for
Improving ASR Systems for Low-Resource Languages [15.214673043019395]
Shrutilipiは、12のインドの言語で6,400時間以上のラベル付きオーディオを含むデータセットです。
平均すると、Shrutilipiは公開ラベル付きデータよりも2.3倍増加する。
We show that that Shrutilipi to the training set of Wav2Vec models to a average down of WER for 7 languages。
論文 参考訳(メタデータ) (2022-08-26T13:37:45Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。