論文の概要: PorTEXTO: A European Portuguese Benchmark for Visual Text Extraction
- arxiv url: http://arxiv.org/abs/2606.19096v1
- Date: Wed, 17 Jun 2026 14:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.192422
- Title: PorTEXTO: A European Portuguese Benchmark for Visual Text Extraction
- Title(参考訳): PorTEXTO: ポルトガルのビジュアルテキスト抽出ベンチマーク
- Authors: João Cardeira, Diogo Glória-Silva, Manuel Letras da Luz, Rafael Ferreira, Diogo Tavares, David Semedo, João Magalhães,
- Abstract要約: 欧州ポルトガル語 (pt-PT) はOCRベンチマークにはほとんど欠落している。
この研究は、現代的で文化的に関係のあるpt-PTビジュアルテキスト抽出のための最初のベンチマークであるPor TEXTOを導入して、現代のOCRアプリケーションに対処する。
多くのモデルにおいて、合成から実世界のサンプルへの急激な性能低下が観察され、現在、特殊な多言語データが、モデルのサイズや解像度の予算よりもpt-PTのパフォーマンス向上に有効であることが判明した。
- 参考スコア(独自算出の注目度): 7.442299103783346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: European Portuguese (pt-PT) is largely absent from OCR benchmarks, which skew toward high-resource languages. The few benchmarks that cover pt-PT focus on historical artifacts and literature. This work addresses modern OCR applications, introducing PorTEXTO, the first benchmark for contemporary and culturally relevant pt-PT visual text extraction. To ascertain quality, we employ an annotation pipeline combining transcriptions from a frontier LVLM with exhaustive review by native speakers. We observe a sharp performance drop from synthetic to real world samples in most models, and find that, currently, specialized multilingual data is a better driver for pt-PT performance than model size or resolution budget, motivating the release of open pt-PT OCR resources.
- Abstract(参考訳): 欧州ポルトガル語 (pt-PT) はOCRベンチマークにはほとんど欠落している。
pt-PTをカバーする数少ないベンチマークは、歴史的アーティファクトと文学に焦点を当てている。
この研究は、現代的で文化的に関係のあるpt-PTビジュアルテキスト抽出のための最初のベンチマークであるPorTEXTOを導入して、現代のOCRアプリケーションに対処する。
品質の確認には、フロンティアLVLMからの書き起こしとネイティブスピーカーによる徹底的なレビューを組み合わせたアノテーションパイプラインを用いる。
我々は,ほとんどのモデルにおいて,合成データから実世界のサンプルへの急激なパフォーマンス低下を観察し,現在,特殊な多言語データは,モデルサイズや解像度予算よりもpt-PTのパフォーマンス向上に寄与し,オープンなpt-PT OCRリソースのリリースを動機付けていることがわかった。
関連論文リスト
- AMALIA Technical Report: A Fully Open Source Large Language Model for European Portuguese [12.322686257512428]
AMALIAはPT-PTを優先する完全にオープンなLCMで、中・後両方の段階でより高品質なpt-PTデータを使用する。
我々は、翻訳された標準タスクと、pt-PT生成、言語能力、pt-PT/pt-BRバイアスをターゲットとした4つの新しいデータセットを含むpt-PTベンチマークスイートをリリースする。
実験により、AMALIAは変換されたベンチマークで強いベースラインと一致し、pt-PT固有の評価では性能が大幅に向上した。
論文 参考訳(メタデータ) (2026-03-27T15:22:33Z) - Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets [2.0199251985015434]
データセットとベンチマークのスケーラブルで高品質な翻訳を可能にするために,完全に自動化されたフレームワークを提案する。
このアプローチを適用して、人気のあるベンチマークとデータセットを8つの東欧と南欧の言語に翻訳します。
論文 参考訳(メタデータ) (2026-02-25T18:58:25Z) - LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR [0.29410438275861583]
我々は,多言語視覚言語モデルである textbfLightOnOCR-2-1B を提案する。
大規模で高品質な蒸留混合物でスキャン、フランス語文書、科学PDFを強くカバーし、LightOnOCR-2はOlmOCR-Benchの最先端の結果を得る。
私たちはApache 2.0でモデルチェックポイントをリリースし、データセットと textbfLightOnOCR-bbox-bench の評価をそれぞれのライセンスで公開しています。
論文 参考訳(メタデータ) (2026-01-20T18:58:32Z) - mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation [0.0]
本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。
我々は、英語のTrOCRエンコーダを言語固有のデコーダと統合し、この言語でモデルを訓練する。
英語のTrOCRをスペイン語で微調整すると、固定データセットサイズに対する言語固有のデコーダよりも優れた認識が得られる。
論文 参考訳(メタデータ) (2024-07-09T15:31:41Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - OCR Improves Machine Translation for Low-Resource Languages [10.010595434359647]
我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるtextscOCR4MTを導入し,公開する。
我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。
次に,OCRエラーが機械翻訳性能に与える影響について検討する。
論文 参考訳(メタデータ) (2022-02-27T02:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。