論文の概要: RealDocBench: A Benchmark for Field-Level QA and Layout Understanding on Real-World Regulated Documents
- arxiv url: http://arxiv.org/abs/2606.07401v1
- Date: Fri, 05 Jun 2026 15:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.832401
- Title: RealDocBench: A Benchmark for Field-Level QA and Layout Understanding on Real-World Regulated Documents
- Title(参考訳): RealDocBench: 実世界のレギュレーションドキュメンテーションにおけるフィールドレベルQAとレイアウト理解のためのベンチマーク
- Authors: Ameya Joshi, Joon Kim, Gus Eggert, Joseph Bajor, Cindy Hao, Jing Reyhan, Kushal Byatnal, Eli Badgio,
- Abstract要約: 文書解析システムは、住宅ローンの引受、財務報告、サプライチェーンのロジスティクス、臨床記録などの規制された領域にますます多く展開されている。
ほとんどの公開ベンチマークは、学術的なレイアウトや合成散文のアダプタを評価し、単一のOCRまたはマークダウンレベルの類似度スコアを報告している。
実際に規制された文書から構築された2トラックのベンチマークであるRealDocBenchを紹介する。
- 参考スコア(独自算出の注目度): 0.9003228139607131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document parsing systems are increasingly deployed in high-stakes, regulated workflows such as mortgage underwriting, financial reporting, supply-chain logistics, and clinical records. Yet most public benchmarks evaluate parsers on clean academic layouts or synthetic prose, and report a single OCR or markdown-level similarity score. Such documents and metrics correlate poorly with what downstream agents actually need: the correct value for a specific field on a messy real-world page. We introduce RealDocBench, a two-track benchmark built from real regulated documents. The QA track contains 1,356 field-level questions over 581 documents spanning four domains, where each question is paired with a typed gold_dict of key-to-value answers and parsers are scored on both per-field and strict per-question accuracy. The layout track contains 1,500 human-verified page images annotated with COCO-style bounding boxes under a nine-class public taxonomy, scored with a Hungarian matcher that includes adjacency-aware split/merge recovery. We evaluate eighteen systems, spanning commercial parsing APIs, general-purpose VLMs, and open-source OCR models, under a uniform extraction-and-scoring protocol, and report accuracy alongside per-page cost and cache-busted latency. RealDocBench exposes a wide performance spread that single-number benchmarks hide, a persistently hard medical sub-domain, and sharp cost/latency trade-offs across operating points. We release the datasets, parser adapters, and evaluation harness to support reproducible, field-level comparison of document parsing systems.
- Abstract(参考訳): 文書解析システムは、住宅ローンの引受、財務報告、サプライチェーンのロジスティクス、臨床記録などの規制されたワークフローに、ますます多く展開されている。
しかし、ほとんどの公開ベンチマークは、クリーンな学術的レイアウトまたは合成散文のパーサーを評価し、単一のOCRまたはマークダウンレベルの類似度スコアを報告している。
このようなドキュメントやメトリクスは、下流のエージェントが本当に必要とするもの、すなわち、散らかった現実世界のページ上の特定のフィールドの正しい値と相関する。
実際に規制された文書から構築された2トラックのベンチマークであるRealDocBenchを紹介する。
QAトラックには、4つのドメインにまたがる581のドキュメントに1,356のフィールドレベルの質問が含まれている。
レイアウトトラックには、CCOスタイルのバウンディングボックスで注釈付けされた1500枚の人体認証ページイメージが含まれており、9クラスの公共分類の下で、アジャクシー対応のスプリット/マージリカバリを含むハンガリーのマッカーでスコア付けされている。
我々は,商用パーシングAPI,汎用VLM,オープンソースOCRモデルにまたがる18のシステムについて,一様抽出・スコアリングプロトコルを用いて評価し,ページ単位のコストとキャッシュバスト遅延を報告した。
RealDocBenchは、シングルナンバーのベンチマークが隠している広範なパフォーマンスのスプレッド、永続的にハードな医療サブドメイン、運用ポイント間のコスト/レイテンシのトレードオフを公開している。
文書解析システムの再現可能なフィールドレベル比較をサポートするために,データセット,パーサアダプタ,評価ハーネスをリリースする。
関連論文リスト
- Dr. DocBench: A Comprehensive Benchmark for Expert-Level and Difficult Document Parsing [53.41293908252118]
我々は、エキスパートレベルの文書解析のための困難を意識したベンチマークであるDocBench博士を紹介する。
Dr. DocBenchは52のBISACドメインにまたがり、障害ベースのサンプリングによってドキュメントを選択する。
約100ページにわたる長いドキュメントから4,514ページの注釈付きページが含まれており、レイアウト、読み込み順序、階層的関係、ドメイン固有のビジュアルコンテンツなど、65kの高品質なアノテーションがある。
本分析では,文書インテリジェンスを診断・進展するための総合的なテストベッドとしてDocBench博士が注目されている。
論文 参考訳(メタデータ) (2026-05-31T18:35:30Z) - HiKEY: Hierarchical Multimodal Retrieval for Open-Domain Document Question Answering [19.052998569565627]
HiKEYは階層木に基づくマルチモーダル検索フレームワークであり、文書階層を1級検索信号に高める。
ODQAベンチマークの実験では、HiKEYはページベースとチャンクベースのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2026-05-28T08:42:21Z) - MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing [74.84107522458798]
MPDocBench-Parseは、現実世界のアプリケーションにおけるマルチページ文書解析のためのベンチマークである。
433の注釈付き文書に3,246ページあり、英語と中国語の15種類の文書を網羅しており、レイアウトは様々である。
論文 参考訳(メタデータ) (2026-05-21T07:36:41Z) - DocScope: Benchmarking Verifiable Reasoning for Trustworthy Long-Document Understanding [29.270128057512284]
本稿では,長期文書QAを構造化推論軌道予測問題として定式化するベンチマークであるDocScopeを紹介する。
軌道の各レベルを独立に監査する4段階評価プロトコルを設計する。
6つのプロプライエタリなモデル、12のオープンウェイトモデル、いくつかのドメイン固有のシステムをベンチマークします。
論文 参考訳(メタデータ) (2026-05-09T11:12:59Z) - DOCR-Inspector: Fine-Grained and Automated Evaluation of Document Parsing with VLM [35.910677096654574]
文書解析は、構造化されていないPDF画像を半構造化データに変換することを目的としており、多様な領域における情報のデジタル化と活用を容易にする。
一般的なプラクティスは、しばしば標準ベンチマークで最高のパフォーマンスモデルを選択する。
本稿では,文書解析評価をきめ細かな誤り検出と解析として形式化するDOCR-Inspectorを紹介する。
論文 参考訳(メタデータ) (2025-12-11T13:16:33Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。