論文の概要: Performance Gap Analysis between Latin and Arabic Scripts HTR
- arxiv url: http://arxiv.org/abs/2606.18884v1
- Date: Wed, 17 Jun 2026 10:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.106234
- Title: Performance Gap Analysis between Latin and Arabic Scripts HTR
- Title(参考訳): ラテン文字とアラビア文字HTRの性能ギャップ解析
- Authors: Sana Al-azzawi, Elisa Barney, Marcus Liwicki,
- Abstract要約: 本稿では,ラインレベルHTRのための統一CRNNモデルを用いて,アラビア語およびラテン文字HTRの包括的研究を行う。
その結果,低リソース環境では大きな差があり,データ量が多いほど小さくなるが,フルスケールでも5~7CERポイントの差が連続的に残るという結果が得られた。
- 参考スコア(独自算出の注目度): 5.227985502946548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that handwritten text recognition (HTR) systems perform worse on Arabic-script datasets than on Latin-script data. However, the reasons for this gap are still not well understood due to the lack of controlled comparisons. In this work, we present a comprehensive study of Arabic and Latin scripts HTR using a unified CRNN model for line-level HTR across nine datasets (including KHATT (Arabic), Muharaf (Arabic), NUST-UHWR (Urdu), PHTD (Persian), IAM (English), READ-2016 (German), and others) and di ferent training sizes (K in {100, 500, 1000, 2000, ..., Kfull}). Our results show the performance gap remains: it is large in low-resource settings, decreases with more data, but remains even at full scale, with a consistent difference of 5-7 CER points. We show that annotation quality matters, as many datasets contain labeling errors. Cleaning reduces error rates and narrows the gap, but does not eliminate it. In addition, we find that a fixed number of training samples provides less effective coverage in Arabic due to higher visual variability, requiring more data to learn similar representations. We compare recognition across datasets in terms of the number of text lines and the number of characters, showing an equivalence trade-off. We compare character frequency distributions across scripts and show that Arabic is significantly more heavy-tailed than Latin. Our error analysis reveals that around 30 percent of substitution errors in Arabic datasets (e.g., KHATT) are caused by confusion between visually similar characters, compared to about 15 percent in Latin-script datasets such as IAM.
- Abstract(参考訳): 近年の研究では、手書き文字認識 (HTR) システムはラテン文字のデータよりもアラビア文字のデータセットに劣っていることが示されている。
しかし、制御された比較の欠如により、このギャップの理由はいまだよく理解されていない。
本研究では,KHATT (アラビア語), Muharaf (アラビア語), NUST-UHWR (ウルドゥー), PHTD (ペルシャ), IAM (英語), READ-2016 (ドイツ語), di ferent training sizes (K in {100, 500, 1000, 2000, ..., Kfull})を含む9つのデータセットを対象としたラインレベルHTRの統一CRNNモデルを用いて,アラビア語およびラテン文字HTRの総合的研究を行う。
その結果,低リソース環境では大きな差があり,データ量が多いほど小さくなるが,フルスケールでも5~7CERポイントの差が連続的に残るという結果が得られた。
多くのデータセットがラベル付けエラーを含むので、アノテーションの品質が重要であることを示す。
クリーニングはエラー率を減少させ、ギャップを狭めるが、それを排除しない。
さらに,一定数のトレーニングサンプルが,より視覚的変動性が高く,同様の表現を学習するためにより多くのデータを必要とするため,アラビア語での効果的なカバレッジを低下させることがわかった。
テキスト行数と文字数の観点からデータセット間の認識を比較し,等価なトレードオフを示す。
文字の頻度分布を比較し、アラビア語がラテン文字よりもかなり重くなっていることを示す。
我々の誤り分析によると、アラビア語のデータセット(例えばKHATT)の置換誤差の約30%は、視覚的に類似した文字の混同によるものであり、IAMのようなラテン文字のデータセットでは約15%である。
関連論文リスト
- Cross-Language Learning within Arabic Script for Low-Resource HTR [5.227985502946548]
クロススクリプト認識は、一様の精度向上よりも、スクリプトレベルのオーバーラップが主な原因である。
低資源体制下でアラビア文字HTRのためのクロススクリプト共同訓練のラインレベル制御を行った。
ペルシャ語(PHTD)では、共同トレーニングは9.99の文字誤り率(CER)を達成する。
論文 参考訳(メタデータ) (2026-05-03T23:18:21Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - Context-Gloss Augmentation for Improving Arabic Target Sense
Verification [1.2891210250935146]
最も一般的なアラビア語のセマンティックラベル付きデータセットはアラブ語である。
本稿では,機械のバックトランスレーションを用いて拡張することで,ArabGlossBERTデータセットの強化について述べる。
我々は、異なるデータ構成を用いて、ターゲットセンス検証(TSV)タスクにBERTを微調整する拡張の影響を計測する。
論文 参考訳(メタデータ) (2023-02-06T21:24:02Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。
このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。
我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文 参考訳(メタデータ) (2020-06-07T01:20:40Z) - Transliteration of Judeo-Arabic Texts into Arabic Script Using Recurrent
Neural Networks [1.933681537640272]
我々は、ユダヤ・アラビア文字をアラビア語の文字に自動翻訳するモデルを訓練する。
我々は、リカレントニューラルネットワーク(RNN)とコネクショニスト時間分類(CTC)の損失を併用して、不平等な入出力長を扱う。
ベースラインの9.5%の文字エラーに対して改善を行い、最高の設定で2%のエラーを達成した。
論文 参考訳(メタデータ) (2020-04-23T18:03:41Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。