論文の概要: Koshur Pixel: a large-scale synthetic ocr dataset for kashmiri
- arxiv url: http://arxiv.org/abs/2606.23144v1
- Date: Mon, 22 Jun 2026 10:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:49:41.330324
- Title: Koshur Pixel: a large-scale synthetic ocr dataset for kashmiri
- Title(参考訳): Koshur Pixel:Kashmiri用の大規模合成ocrデータセット
- Authors: Haq Nawaz Malik, Faizan Iqbal, Nahfid Nissar,
- Abstract要約: 我々は、Kashmiriのための最初の大規模合成OCRデータセットであるKoshur Pixelを紹介する。
Koshur Pixelは、SynthOCR-Genフレームワークを使用してKS-PRET-5Mコーパスから生成された613,078の画像テキストペアで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Optical Character Recognition (OCR) for low-resource languages is often constrained by the lack of annotated training data and the complexity of script-specific rendering. Kashmiri, written primarily in the Perso-Arabic Nastaliq script, presents additional challenges due to contextual glyph shaping, dense ligatures, and orthographic variability. We introduce Koshur Pixel, the first large-scale synthetic OCR dataset for Kashmiri, comprising 613,078 image-text pairs generated from the KS-PRET-5M corpus using the SynthOCR-Gen framework. The dataset spans multiple fonts and textual granularities, ranging from individual words to full-page documents, and incorporates more than 25 augmentation strategies that emulate real-world document degradations. Koshur Pixel provides a scalable and cost-effective alternative to manual annotation, establishing a foundational resource for training OCR systems, digitizing Kashmiri textual heritage, and advancing language technologies for a severely under-resourced language.
- Abstract(参考訳): 低リソース言語のための光学文字認識(OCR)は、注釈付きトレーニングデータの欠如とスクリプト固有のレンダリングの複雑さによって制約されることが多い。
カシュミリは、主にペルソ・アラビア文字のナスタリク文字で書かれており、文脈的なグリフの整形、密集したリグチュア、正書法的な可変性による追加の課題を提示している。
我々は,KS-PRET-5Mコーパスから生成した613,078個の画像テキストペアをSynthOCR-Genフレームワークを用いて,Kashmiriのための最初の大規模OCRデータセットであるKoshur Pixelを紹介する。
データセットは、個々の単語から全ページドキュメントまで、複数のフォントとテキストの粒度にまたがっており、現実世界の文書劣化をエミュレートする25以上の拡張戦略が組み込まれている。
Koshur Pixelは手動のアノテーションに代わるスケーラブルで費用対効果の高い代替手段を提供し、OCRシステムのトレーニング、Kashmiriテキストの遺産のデジタル化、そして非常に低リソースの言語技術の発展のための基礎的なリソースを確立している。
関連論文リスト
- GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts [58.92151016423978]
我々は100以上のUnicodeスクリプトでOCRを評価する総合ベンチマークであるGlotOCR Benchを紹介する。
我々のベンチマークは、実際の多言語テキストからレンダリングされたクリーンで劣化した画像の変種で構成されている。
オープンウェイトでプロプライエタリなビジョン言語モデルを幅広く評価した結果,ほとんどの場合,10文字未満でうまく動作することがわかった。
論文 参考訳(メタデータ) (2026-04-14T17:12:41Z) - synthocr-gen: A synthetic ocr dataset generator for low-resource languages- breaking the data barrier [0.0]
我々は低リソース言語用に特別に設計されたオープンソースのOCRデータセットジェネレータであるSynthOCR-Genを提案する。
我々のツールは、デジタルUnicodeテキストコーパスを準備可能なトレーニングデータセットに変換することで、OCR開発における根本的なボトルネックに対処する。
我々は,600,000サンプルの単語分割型Kashmiri OCRデータセットを作成した。
論文 参考訳(メタデータ) (2026-01-22T17:01:33Z) - When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study [48.67151986743594]
テキストを視覚信号として扱うことでセマンティックID学習の表現設計を再考する。
項目記述を画像に描画することで得られるOCRに基づくテキスト表現の体系的な実証的研究を行う。
OCR-text は, セマンティックID 学習における標準テキスト埋め込みと一意に一致しているか, 上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-21T06:18:57Z) - 600k-ks-ocr: a large-scale synthetic dataset for optical character recognition in kashmiri script [0.0]
600K-KS-OCRデータセットは、約602,000ワードレベルの分割画像からなる大規模な合成コーパスである。
各画像は256x64ピクセルでレンダリングされ、CRNN、TrOCR、汎用機械学習パイプラインと互換性のある複数のフォーマットで対応する接地木転写が提供される。
データセットは約10.6GBの分割された10のアーカイブに分散され、CC-BY-4.0ライセンスでリリースされている。
論文 参考訳(メタデータ) (2026-01-03T06:29:17Z) - Cross-Lingual SynthDocs: A Large-Scale Synthetic Corpus for Any to Arabic OCR and Document Understanding [3.587092806938212]
Cross-Lingual SynthDocsは、光学文字認識(OCR)と文書理解(DU)のためのアラビア語リソースの不足に対処するために設計された大規模な合成コーパスである。
データセットは、150万のテキストデータ、270万の注釈付きテーブル、数十万の実際のデータベースチャートを含む、250万以上のサンプルで構成されている。
論文 参考訳(メタデータ) (2025-11-01T04:54:58Z) - Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。
コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。
提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文 参考訳(メタデータ) (2025-05-30T17:39:14Z) - SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition [0.995313069446686]
SARDは、書籍スタイルのドキュメントをシミュレートするための、大規模で合成的に生成されたデータセットである。
6億9千万の単語を含む843,622の文書画像からなり、10の異なるアラビア語のフォントに散らばって、タイポグラフィーのカバー範囲を広く確保している。
スキャンされた文書から得られたデータセットとは異なり、SARDは現実世界のノイズや歪みをなくし、モデルトレーニングのためのクリーンで制御された環境を提供する。
論文 参考訳(メタデータ) (2025-05-30T13:47:54Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。