論文の概要: Page image classifier fine-tuned on century-spanning archives of scanned documents for further content-specific processing
- arxiv url: http://arxiv.org/abs/2606.07558v1
- Date: Mon, 25 May 2026 08:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.718445
- Title: Page image classifier fine-tuned on century-spanning archives of scanned documents for further content-specific processing
- Title(参考訳): スキャンされた文書の世紀スパンニングアーカイブに微調整されたページ画像分類器によるコンテンツ特化処理
- Authors: Kateryna Lutsai, Pavel Straňák, David Novák, Dana Křivánková,
- Abstract要約: 人文科学におけるデジタル化プロジェクトは、歴史的文書の膨大な、異質なアーカイブを生み出している。
この作業は、ビジュアルコンテンツタイプに基づいてスキャンされたページイメージを分類する自動化システムの必要性に対処する。
注釈付き歴史ページイメージ48,000枚以上のデータセットを用いて,画像分類システムを開発し,評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Digitization projects in the humanities produce vast, heterogeneous archives of historical documents, making manual sorting impractical at scale. This work addresses the need for an automated system to classify scanned page images based on visual content type - text, tables, and graphics - enabling content-specific downstream processing such as Optical Character Recognition (OCR) or structured data extraction. Methods: An image classification system was developed and evaluated on a dataset of over 48,000 annotated historical page images from century-old Czech archaeological archives, refined through four successive annotation stages with domain-expert review. A Random Forest Classifier baseline was established using hand-crafted image features. Subsequently, deep learning architectures were fine-tuned and compared: Convolutional Neural Networks (EfficientNetV2, RegNetY), Vision and Document Image Transformers (ViT, DiT), and multimodal CLIP models. An 11-category label scheme was designed collaboratively with domain experts and evaluated via five-fold cross-validation. Results: The feature-based baseline achieved approximately 75% accuracy. Fine-tuned CNNs and Transformers substantially outperformed it, with RegNetY-16GF achieving 99.16% and ViT-large 99.12% Top-1 accuracy on the held-out test set. CLIP ViT-B/16 reached 99.14% with optimized text descriptions. Conclusion: Image-only models, particularly RegNetY-16GF, deliver near-perfect classification accuracy and produce consistent labels across 649,508 unlabeled archival pages with over 90% inter-model agreement. Fine-tuned CLIP, despite competitive test-set accuracy, showed under 65% agreement with image-only models on unlabeled data, making it less suitable for deployment. The final models, annotated dataset, and software are publicly available under open-source licenses.
- Abstract(参考訳): 目的: 人文科学におけるデジタル化プロジェクトでは、歴史的文書の膨大な異質なアーカイブを作成し、手作業による分類を大規模に非現実的にする。
この研究は、視覚コンテンツタイプ(テキスト、テーブル、グラフィック)に基づいてスキャンされたページイメージを分類する自動化システムの必要性に対処する。
方法: 1世紀のチェコの考古学資料から48,000点以上の注釈付き歴史資料のデータセットを用いて画像分類システムを開発,評価した。
手作り画像特徴を用いたランダムフォレスト分類器のベースラインが確立された。
その後、ディープラーニングアーキテクチャを微調整して比較した: Convolutional Neural Networks (EfficientNetV2, RegNetY), Vision and Document Image Transformer (ViT, DiT), Multimodal CLIP model。
11カテゴリのラベルスキームはドメインの専門家と共同で設計され、5倍のクロスバリデーションによって評価された。
結果: 機能ベースのベースラインは, 約75%の精度を達成した。
微調整のCNNとトランスフォーマーでは、RegNetY-16GFは99.16%、ViT-largeは99.12%の精度で性能が大幅に向上した。
CLIP ViT-B/16は、最適化されたテキスト記述で99.14%に達した。
結論: 画像のみのモデル、特にRegNetY-16GFは、ほぼ完全な分類精度を提供し、649,508の未ラベルのアーカイブページを90%以上のモデル間合意で一貫したラベルを生成する。
微調整されたCLIPは、競合するテストセットの正確さにもかかわらず、ラベルなしデータのイメージのみのモデルと65%未満の一致を示したため、デプロイには適さない。
最終的なモデル、注釈付きデータセット、ソフトウェアは、オープンソースライセンス下で公開されている。
関連論文リスト
- DocIQ: A Benchmark Dataset and Feature Fusion Network for Document Image Quality Assessment [78.21680156380705]
主観的なDIQAデータセットDIQA-5000を紹介する。
DIQA-5000データセットは5000個の文書画像からなる。
それぞれの強調画像は、全体的な品質、シャープさ、色質の3つの評価次元の15の被験者によって評価された。
そこで本研究では,文書レイアウト機能を利用した非参照DIQAモデルを提案する。
論文 参考訳(メタデータ) (2025-09-21T10:01:43Z) - WordVIS: A Color Worth A Thousand Words [4.891597567642704]
文書分類において、マルチモーダルなアプローチがますます人気になっている。
これらのアプローチは、膨大な量のトレーニングデータと広範な計算能力を必要とするため、未利用である。
本稿では,テキスト機能を直接視覚空間に埋め込むことにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2024-12-13T14:12:55Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - DWT-CompCNN: Deep Image Classification Network for High Throughput JPEG
2000 Compressed Documents [0.9405458160620535]
DWT CompCNN は High Throughput JPEG 2000 (HTJ2K) アルゴリズムを用いて圧縮された文書の分類を行う。
提案モデルでは時間と空間の効率が向上し,圧縮領域の分類精度も向上する。
論文 参考訳(メタデータ) (2023-06-02T08:33:58Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual
representations [4.588028371034406]
画像テキストペアのコンテキストアライメントのための文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。
共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善することが観察された。
ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。
論文 参考訳(メタデータ) (2022-11-14T05:17:51Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。