論文の概要: Complex Layout Classification in the Wild: A Low-Resource Approach with Layout-Preserving Augmentations
- arxiv url: http://arxiv.org/abs/2606.17355v1
- Date: Mon, 15 Jun 2026 23:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.170554
- Title: Complex Layout Classification in the Wild: A Low-Resource Approach with Layout-Preserving Augmentations
- Title(参考訳): 野生における複雑なレイアウト分類:レイアウト保存拡張による低リソースアプローチ
- Authors: Sharva Gogawale, Iddo Hakim, Gal Grudka, Mohammad Suliman, Omer Ventura, Daria Vasyutinsky-Shapira, Berat Kurar-Barakat, Nachum Dershowitz,
- Abstract要約: 多くのデジタルコーパスは、アノテーションが乏しく、ページスキャンはノイズが多く、レイアウトは構造的に複雑であるため、リソース不足に悩まされている。
そこで本研究では,CNNをベースとした強力なドメイン認識拡張を用いた学習手法を提案する。
その結果,高度アノテーション不足下では,レイアウト固有の拡張によりページレベルのレイアウト分類が大幅に改善できることが示唆された。
- 参考スコア(独自算出の注目度): 0.7521770412706227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many digitized corpora suffer from low resources because annotations may be scarce, page scans are noisy and of poor resolution, or layouts are structurally complex in ways that negatively affect the quality of automatic transcription. Developing robust classification models for low-resource languages is inhibited by the lack of large-scale annotated data and by the frequent semantic complexity of page layouts. To this end, we have curated a complex-layout dataset, manually classified into eight distinct layout types based on their separator regions. To overcome data scarcity, we propose a novel training strategy in the form of a CNN-based classifier that employs strong, domain-aware augmentations to improve generalization. We utilize narrow anisotropic Gaussian masking to suppress incidental textual details while preserving essential separations, compelling the model to learn global geometric arrangements. Additionally, we implement reflection-induced label transformations to enrich the training distribution while maintaining label consistency across asymmetric categories. The results demonstrate that layout-specific augmentations can substantially improve page-level layout classification under severe annotation scarcity.
- Abstract(参考訳): 多くのデジタルコーパスは、アノテーションが乏しく、ページスキャンはノイズが多く、解像度が悪く、レイアウトが構造的に複雑であり、自動転写の品質に悪影響を及ぼすため、リソースの不足に悩まされている。
低リソース言語のためのロバストな分類モデルの構築は、大規模な注釈付きデータの欠如やページレイアウトのセマンティックな複雑さによって妨げられている。
この目的のために、我々は複雑なレイアウトデータセットをキュレートし、手動でセパレータ領域に基づいて8つの異なるレイアウトタイプに分類した。
データの不足を克服するため,CNNをベースとした強力なドメイン認識拡張を用いた新たな学習手法を提案する。
我々は狭義の異方性ガウスマスクを用いて、本質的な分離を保ちながら、付随するテキストの詳細を抑え、大域的な幾何学的配置を学ぶようモデルに促す。
さらに、非対称なカテゴリ間でラベルの一貫性を維持しながら、トレーニング分布を豊かにする反射誘起ラベル変換を実装した。
その結果,高度アノテーション不足下では,レイアウト固有の拡張によりページレベルのレイアウト分類が大幅に改善できることが示唆された。
関連論文リスト
- Provable Sparse Inversion and Token Relabel Enhanced One-shot Federated Learning with ViTs [77.42033827176806]
ワンショットフェデレートラーニング(One-Shot Federated Learning)は、単一のコミュニケーションラウンドでグローバルモデルを学ぶ中央サーバが、有望なパラダイムとして登場したものだ。
本稿では,合成画像の全パッチをフル活用してグローバルモデルをトレーニングする,新しいフェデレーションモデルインバージョンとトークンリラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-11T15:49:08Z) - Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - Self-supervised Latent Space Optimization with Nebula Variational Coding [87.20343320266215]
本稿では,クラスタ化埋め込みに繋がる変分推論モデルを提案する。
textbfnebula anchorsと呼ばれる潜伏空間に新たな変数を導入し、トレーニング中に潜伏変数がクラスタを形成するように誘導する。
各潜在機能は最も近いアンカーでラベル付けできるため、クラスタ間の分離をより明確にするために、自己教師付き方法でメートル法学習を適用することも提案する。
論文 参考訳(メタデータ) (2025-06-02T08:13:32Z) - Unleash the Power of Local Representations for Few-Shot Classification [6.722306005855269]
訓練中に目に見えない新しいクラスに一般化することは、数発の分類において重要な課題である。
最近の計量法は局所的な表現によってこの問題に対処しようとする。
本研究では,局所表現の力を解き放ち,新しいクラスを一般化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T05:51:04Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - Style Curriculum Learning for Robust Medical Image Segmentation [62.02435329931057]
深部セグメンテーションモデルは、トレーニングデータセットとテストデータセットの間の画像強度の分散シフトによって、しばしば劣化する。
本稿では,そのような分散シフトが存在する場合に,ロバストなセグメンテーションを確保するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-01T08:56:24Z) - Learning from Partially Overlapping Labels: Image Segmentation under
Annotation Shift [68.6874404805223]
腹部臓器分節の文脈におけるラベルの重複から学ぶためのいくつかの方法を提案する。
半教師付きアプローチと適応的クロスエントロピー損失を組み合わせることで、不均一な注釈付きデータをうまく活用できることが判明した。
論文 参考訳(メタデータ) (2021-07-13T09:22:24Z) - Self-Learning with Rectification Strategy for Human Parsing [73.06197841003048]
擬似ラベルの2つの典型的な誤りを補正する訓練可能なグラフ推論法を提案する。
再構成された特徴は、人体のトポロジー構造を表現する能力が強い。
本手法は、教師付き人間の解析作業において、他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-17T03:51:30Z) - Improving Training on Noisy Stuctured Labels [17.835042432662846]
本稿では,細粒度アノテーションにおける構造化誤りの有無を学習する上での課題を解決するために,誤り訂正ネットワーク(ECN)の新たなフレームワークを提案する。
ECNは、ノイズの多いデータに対するトレーニングのための標準的なアプローチと比較して、きめ細かいアノテーションの予測を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-08T22:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。