論文の概要: POTATR: A Lightweight Image-to-Graph Model for Page-Level Table Extraction
- arxiv url: http://arxiv.org/abs/2606.09788v1
- Date: Mon, 08 Jun 2026 17:43:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.610461
- Title: POTATR: A Lightweight Image-to-Graph Model for Page-Level Table Extraction
- Title(参考訳): POTATR:ページレベルテーブル抽出のための軽量画像グラフモデル
- Authors: Brandon Smock, Libin Liang, Max Sokolov, Amrit Ramesh, Valerie Faucon-Morin, Tayyibah Khanam, Maury Courtland,
- Abstract要約: Page-Object Table Transformer (POTATR) は、コンテキスト化されたページレベルTEのためのTable Transformer (TATR) を拡張するイメージ・ツー・グラフモデルである。
POTATRはPubTables-v2 Single Pagesベンチマークでテストされたすべてのモデルを上回っている。
- 参考スコア(独自算出の注目度): 1.209913077217557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale document processing requires contextually aware table extraction (TE) that is both accurate and efficient. Yet current approaches require billions of parameters, hundreds of autoregressive steps, or costly API inference. Motivated by this, we introduce the Page-Object Table Transformer (POTATR), a lightweight 29M parameter image-to-graph model that extends the Table Transformer (TATR) for contextualized page-level TE. POTATR outperforms all models tested on the PubTables-v2 Single Pages benchmark -- including frontier MLLMs -- achieving $\textrm{GriTS}_\textrm{Con}$ of 0.964 while running over 130$\times$ faster at roughly 300$\times$ lower cost. Further, POTATR's output is spatially grounded: every recognized element has a bounding box, enabling visual verification and geometric text assignment. As a result, POTATR performs unified page-level TE while composing with other models, enabling extension to scanned documents via external OCR and to full-document TE via techniques like cross-page merging. Code and models will be released.
- Abstract(参考訳): 大規模文書処理には、正確かつ効率的なコンテキスト認識テーブル抽出(TE)が必要である。
しかし現在のアプローチでは、数十億のパラメータ、数百の自己回帰ステップ、あるいは高価なAPI推論が必要です。
そこで本研究では,Page-Object Table Transformer (POTATR) を導入し,コンテキスト化ページレベルTEのためのTable Transformer (TATR) を拡張した軽量な29Mパラメータ画像-グラフモデルを提案する。
POTATRはPubTables-v2 Single Pagesベンチマークでテストされたすべてのモデル(フロンティアMLLMsを含む)より優れており、$\textrm{GriTS}_\textrm{Con}$ of 0.964を達成し、130$\times$を約300$\times$低価格で実行している。
さらに、POTATRの出力は、すべての認識された要素がバウンディングボックスを持ち、視覚的検証と幾何学的テキスト割り当てを可能にしている。
結果として、POTATRは他のモデルと構成しながら統一されたページレベルのTEを実行し、外部のOCRを介してスキャンされたドキュメントや、クロスページマージのような技術を介してフルドキュメントのTEに拡張できる。
コードとモデルはリリースされる。
関連論文リスト
- MinerU-Popo: Universal Post-Processing Model for Structured Document Parsing [34.19535115746437]
MinerU-Popoは、OCR出力をPast-Processingする軽量フレームワークである。
問題をテキストトランケーション回復、テーブルトランケーション回復、タイトル階層、画像テキスト関連という4つのサブタスクに分解する。
5つのテストされたOCRモデルで、TEDSのタイトル階層を少なくとも20%改善する。
論文 参考訳(メタデータ) (2026-05-24T10:00:28Z) - Beyond Patch Aggregation: 3-Pass Pyramid Indexing for Vision-Enhanced Document Retrieval [0.0]
ドキュメント中心のRAGパイプラインは通常、OCRから始まり、次にチャンキング、テーブル解析、レイアウト再構築のための脆さが続く。
我々は,OCRフリーかつモデル非依存なマルチモーダル検索システムであるVisionRAGを紹介する。
VisionRAGは、ドキュメントを直接イメージとしてインデックスし、レイアウト、テーブル、空間的なキューを保存し、特定の抽出にコミットすることなくセマンティックベクターを構築する。
論文 参考訳(メタデータ) (2025-11-26T07:18:06Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - VAULT: VAriable Unified Long Text Representation for Machine Reading
Comprehension [31.639069657951747]
機械読取の既存のモデルは、段落表現と分類で長いテキストをモデル化するために複雑なモデルアーキテクチャを必要とする。
長文入力からの文脈化表現に基づく,MDC の軽量かつ並列効率なパラメタ表現 VAULT を提案する。
論文 参考訳(メタデータ) (2021-05-07T13:03:43Z) - Robust PDF Document Conversion Using Recurrent Neural Networks [0.0]
本稿では,リカレントニューラルネットワークを用いたpdfの文書構造復元手法を提案する。
ニューラルネットワークへの入力としてPDF印刷コマンドのシーケンスをどのように使用できるかを示す。
17の異なる構造ラベルで97%の重み付き平均F1スコアを得るモデルを実装します。
論文 参考訳(メタデータ) (2021-02-18T14:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。