論文の概要: RT-DocLayout: Real-Time End-to-End Document Layout Analysis with Reading Order in the Wild
- arxiv url: http://arxiv.org/abs/2606.23344v1
- Date: Mon, 22 Jun 2026 13:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:29:34.90136
- Title: RT-DocLayout: Real-Time End-to-End Document Layout Analysis with Reading Order in the Wild
- Title(参考訳): RT-DocLayout: リアルタイムのエンドツーエンドドキュメントレイアウト解析
- Authors: Cheng Cui, Tingquan Gao, Xueqing Wang, Changda Zhou, Hongen Liu, Ting Sun, Yubo Zhang, Zelun Zhang, Jiaxuan Liu, Manhui Lin, Yue Zhang, Suyin Liang, Yiqing Xiang, Yi Liu,
- Abstract要約: 文書レイアウト解析のための高効率なエンドツーエンドフレームワークRT-Docを提案する。
提案モデルは,レイアウト要素の分類,画素レベルのセグメンテーション,幾何学的順序順予測を統一する。
RT-Docは、フルドキュメントの再構築品質を大幅に改善し、現実世界の文書インテリジェンスシステムのスケーラブルで実用的な基盤を提供する。
- 参考スコア(独自算出の注目度): 14.715243408844058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate document layout analysis remains a critical bottleneck for document parsing systems, due to the intricate coupling among heterogeneous document layout elements, geometric distortions (\eg, paper warping and bending, perspective variations), and reading order within diverse layout structures. Existing approaches typically rely on fragmented multi-stage pipelines or computationally heavy generative Transformer architectures, leading to error propagation and limited efficiency. In this paper, we present RT-DocLayout, a highly efficient end-to-end framework for document layout analysis, designed as a front-end for document parsing tasks. The proposed model unifies classification, detection, pixel-level segmentation, and reading order prediction for layout elements within a single 33M-parameter architecture. Built upon the RT-DETR, our key contribution is a unified multi-task formulation within a single query-based decoder that simultaneously classifies, regresses bounding box, generates masks, and constructs relationship to reason reading order. By jointly learning geometric and structural representations, RT-DocLayout introduces multi-task optimization that substantially improves robustness under real-world document distortions. Extensive experiments on public benchmarks demonstrate state-of-the-art performance in document layout analysis while maintaining real-time inference speed(132.1 FPS). When coupled with downstream OCR engines, RT-DocLayout significantly improves full-document reconstruction quality, providing a scalable and practical foundation for real-world document intelligence systems.
- Abstract(参考訳): 不均一な文書レイアウト要素間の複雑な結合、幾何学的歪み(例えば、紙の反りと曲げ、視線の変化)、様々なレイアウト構造における読み順などにより、正確な文書レイアウト解析は文書解析システムにとって依然として重要なボトルネックとなっている。
既存のアプローチは通常、断片化されたマルチステージパイプラインや計算的に重いトランスフォーマーアーキテクチャに依存しており、エラーの伝播と効率の制限につながっている。
本稿では,文書レイアウト解析のための高効率なエンドツーエンドフレームワークであるRT-DocLayoutについて述べる。
提案モデルでは,1つの33Mパラメータアーキテクチャ内のレイアウト要素の分類,検出,画素レベルのセグメンテーション,読み出し順序予測を統一する。
RT-DETRをベースとして構築されたキーコントリビューションは,単一クエリベースのデコーダ内でのマルチタスクの統一化である。
RT-DocLayoutは、幾何学的および構造的表現を共同学習することにより、実世界の文書歪みに対するロバスト性を大幅に改善するマルチタスク最適化を導入している。
公開ベンチマークでの大規模な実験は、リアルタイム推論速度(132.1 FPS)を維持しながら、文書レイアウト解析における最先端の性能を示す。
下流のOCRエンジンと組み合わせることで、RT-DocLayoutはフルドキュメントの再構築品質を大幅に改善し、現実世界の文書インテリジェンスシステムのスケーラブルで実用的な基盤を提供する。
関連論文リスト
- MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A [13.040489131301081]
MM-BizRAGは文書構造認識スプリットを介して文書構造を積極的に抽出し、表現する。
MM-BizRAGは、最先端のビジョン中心のベースラインを最大32%上回っている。
論文 参考訳(メタデータ) (2026-06-02T21:31:47Z) - MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing [74.84107522458798]
MPDocBench-Parseは、現実世界のアプリケーションにおけるマルチページ文書解析のためのベンチマークである。
433の注釈付き文書に3,246ページあり、英語と中国語の15種類の文書を網羅しており、レイアウトは様々である。
論文 参考訳(メタデータ) (2026-05-21T07:36:41Z) - Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - PARL: Position-Aware Relation Learning Network for Document Layout Analysis [23.497081928689525]
効果的なレイアウト解析は,テキストと視覚の融合ではなく,文書の本質的な視覚構造を深く理解することに依存する。
位置感度とリレーショナル構造を用いてレイアウトをモデル化する新しいOCRフリー・ビジョンオンリーのフレームワークを提案する。
実験により、PARL (65M) は大規模マルチモーダルモデルより約4倍少ないパラメータを用いて非常に効率的であることが示されている。
論文 参考訳(メタデータ) (2026-01-12T15:05:35Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。