論文の概要: TrOCR for Medieval HTR: A Systematic Ablation Study with Cross-Dataset Validation
- arxiv url: http://arxiv.org/abs/2606.24302v1
- Date: Tue, 23 Jun 2026 08:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.851566
- Title: TrOCR for Medieval HTR: A Systematic Ablation Study with Cross-Dataset Validation
- Title(参考訳): 中世HTRのためのTrOCR:クロスデータセット検証を用いた体系的アブレーション研究
- Authors: Sachin Sharma, Michele Flammini, Federico Simonetta,
- Abstract要約: 本稿では,3つの制御可能な微調整選択(コントラスト正規化,データ拡張,層凍結)が,TrOCRを小さな歴史的データセットに適用する際の認識精度に与える影響について検討する。
13世紀のイタリアの写本で制御された実験を行い、公開READ-16ベンチマークで同じ実験格子を再現した。
- 参考スコア(独自算出の注目度): 5.109916598239571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning transformer-based handwritten text recognition (HTR) models on medieval manuscripts is challenging because these models are pre-trained on modern text and must adapt to a very different visual domain. This paper studies how three controllable fine-tuning choices (contrast normalization, data augmentation, and layer freezing) affect recognition accuracy when adapting TrOCR to small historical datasets. We run controlled experiments on a 13th-century Italian manuscript (I-CT 91 "Cortonese") and replicate the same experimental grid on the public READ-16 benchmark as robustness evidence. On Cortonese, our best configuration achieves 8.03% character error rate (CER). Statistical comparisons across 13 configurations show that freezing up to three encoder layers or six decoder layers does not significantly harm accuracy, while deeper freezing becomes progressively detrimental. Removing contrast normalization (CLAHE) yields 7.84% CER, comparable to a domain-specialized baseline, suggesting strong optimization can reduce reliance on image preprocessing. Cross-dataset validation on READ-16 shows that decoder freezing thresholds transfer more robustly than encoder thresholds, and combined freezing strategies require dataset-specific re-validation. Finally, we use Grad-CAM gradient attributions and decoder cross-attention maps to diagnose error patterns and failure modes revealed by the ablations. Source code is available at https://github.com/LaudareProject/TrOCR-analysis
- Abstract(参考訳): 中世の写本における微調整トランスフォーマーを用いた手書き文字認識(HTR)モデルは、現代のテキストで事前訓練されているため、全く異なる視覚領域に適応しなければならないため、困難である。
本稿では,3つの制御可能な微調整選択(コントラスト正規化,データ拡張,層凍結)が,TrOCRを小さな歴史的データセットに適用する際の認識精度に与える影響について検討する。
13世紀のイタリアの写本(I-CT 91 "Cortonese")で制御された実験を行い、公的なREAD-16ベンチマークで、ロバスト性証拠と同じ実験格子を再現した。
Cortoneseでは8.03%の文字エラー率(CER)を実現しています。
13の構成の統計的比較では、最大で3つのエンコーダ層または6つのデコーダ層が精度を著しく損なうことはないが、より深い凍結は徐々に有害になる。
コントラスト正規化(CLAHE)の除去は、ドメイン特化ベースラインに匹敵する7.84%のCERをもたらす。
READ-16のクロスデータセット検証は、デコーダの凍結しきい値がエンコーダのしきい値よりも堅牢に転送され、組み合わせた凍結戦略はデータセット固有の再検証を必要とすることを示している。
最後に,Grad-CAM勾配属性とデコーダクロスアテンションマップを用いて,アブリゲーションによって明らかになったエラーパターンと障害モードの診断を行う。
ソースコードはhttps://github.com/LaudareProject/TrOCR-analysisで入手できる。
関連論文リスト
- Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - MoSEs: Uncertainty-Aware AI-Generated Text Detection via Mixture of Stylistics Experts with Conditional Thresholds [50.94175872742232]
本稿では,スタイリスティックスを意識した定量化の不確実性を実現するためのMixture of Stylistic Experts (MoSEs) フレームワークを提案する。
MoSEには、Stylistics Reference Repository (SRR)、Stylistics-Aware Router (SAR)、Conditional Threshold Estimator (CTE)の3つのコアコンポーネントが含まれている。
判別スコアにより、MoSEは対応する信頼度レベルで予測ラベルを出力する。
論文 参考訳(メタデータ) (2025-09-02T16:51:43Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Scrambled text: training Language Models to correct OCR errors using synthetic data [0.0]
本稿では,合成データ上での言語モデルの微調整により,OCRエラーの修正能力が大幅に向上することを示す。
合成データで訓練されたモデルは、文字誤り率を55%減らし、単語誤り率を32%減らし、実際のデータで訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-29T15:20:37Z) - UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction [18.97378605403447]
ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。
パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
論文 参考訳(メタデータ) (2024-01-11T06:30:07Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。