論文の概要: Revisiting Structural Dependency in Autoregressive Multi-Task Table Recognition via Order-Independent Cell-Level Representations
- arxiv url: http://arxiv.org/abs/2606.17874v1
- Date: Tue, 16 Jun 2026 12:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.436525
- Title: Revisiting Structural Dependency in Autoregressive Multi-Task Table Recognition via Order-Independent Cell-Level Representations
- Title(参考訳): 順序に依存しないセルレベル表現による自己回帰型マルチタスクテーブル認識における構造依存性の再検討
- Authors: Takaya Kawakatsu,
- Abstract要約: マルチタスクテーブル認識は、テーブル構造予測、セルローカライゼーション、セルコンテンツ認識を共同で扱う。
本稿では,非因果的注意を通して秩序に依存しない細胞特徴を生産する構造改良モジュールを提案する。
- 参考スコア(独自算出の注目度): 0.47379911264912167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task table recognition jointly addresses table structure prediction, cell localization, and cell content recognition within a unified framework. Existing approaches often rely on autoregressive decoders to generate table structures and reuse their hidden states for cell localization and content recognition. This autoregressive generation process can make cell representations order-dependent, degrading global consistency across cells. This paper proposes a structural refinement module that produces order-independent cell features through non-causal attention. This design enables parallel inference of cell contents while conditioning each cell on global context encoded in the refined features. Experiments on two large datasets demonstrate consistent gains in cell localization and end-to-end recognition, while reducing overall inference time by around threefold.
- Abstract(参考訳): マルチタスクテーブル認識は、統合されたフレームワーク内のテーブル構造予測、セルローカライゼーション、セルコンテンツ認識を共同で扱う。
既存のアプローチでは、しばしば自己回帰デコーダを使用してテーブル構造を生成し、その隠れた状態をセルローカライズとコンテンツ認識のために再利用する。
この自己回帰生成プロセスは、細胞を秩序に依存させ、細胞間でのグローバルな一貫性を低下させる。
本稿では,非因果的注意を通して秩序に依存しない細胞特徴を生産する構造改良モジュールを提案する。
この設計は、各セルを精細な特徴を符号化したグローバルなコンテキストで条件付けしながら、セル内容の並列推論を可能にする。
2つの大きなデータセットの実験は、セルローカライゼーションとエンドツーエンド認識において一貫した利得を示し、全体の推論時間を約3倍に短縮した。
関連論文リスト
- How Do Language Models Understand Tables? A Mechanistic Analysis of Cell Location [53.68149869349268]
細胞位置の原子的タスクを分離することにより,テーブル理解の過程を解明する。
モデルは、座標を解くために離散をカウントする順序機構を介して標的セルを特定することを実証する。
我々は,原子配置中に同定された同一のアテンションヘッドを多重化することにより,モデルがマルチセル位置タスクに一般化できることを明らかにする。
論文 参考訳(メタデータ) (2026-02-09T11:47:34Z) - Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition [1.2328446298523066]
エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。
この効果は2つの大きなデータセットで実証され、実験結果は最先端モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-20T04:30:38Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Visual Understanding of Complex Table Structures from Document Images [32.95187519339354]
本稿では,テーブル内におけるセル固有のアライメントをキャプチャするオブジェクト検出に基づく新しいディープモデルを提案する。
また,新しい直線グラフに基づく定式化を導出することにより,構造認識の改善も目指している。
我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。
論文 参考訳(メタデータ) (2021-11-13T14:54:33Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - LGPMA: Complicated Table Structure Recognition with Local and Global
Pyramid Mask Alignment [54.768354427967296]
テーブル構造認識は、様々な構造と複雑な細胞間関係のために難しい課題である。
本研究では,局所・グローバルな特徴マップにソフトピラミッドマスク学習機構を採用した局所・グローバルピラミッドマスクアライメントの枠組みを提案する。
その後、ピラミッドマスク再記録モジュールが統合され、ローカルおよびグローバル情報を妥協し、予測される境界を洗練します。
論文 参考訳(メタデータ) (2021-05-13T12:24:12Z) - Global Table Extractor (GTE): A Framework for Joint Table Identification
and Cell Structure Recognition Using Visual Context [11.99452212008243]
本稿では,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークを提案する。
GTE-Tableでは、テーブルネットワークをトレーニングするために、テーブルの自然セル封じ込め制約に基づく新たなペナルティを発明する。
これを使って、セルラベルでPubTabNetを強化し、FinTabNet、実世界の複雑な科学的および財務的なデータセットを作成します。
論文 参考訳(メタデータ) (2020-05-01T20:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。