Fugu-MT 論文翻訳(概要): ParseFixer: An Agentic Framework for Document Parsing via Selective Multimodal Correction

論文の概要: ParseFixer: An Agentic Framework for Document Parsing via Selective Multimodal Correction

arxiv url: http://arxiv.org/abs/2606.11977v1
Date: Wed, 10 Jun 2026 11:55:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-11 16:42:38.439863
Title: ParseFixer: An Agentic Framework for Document Parsing via Selective Multimodal Correction
Title（参考訳）: ParseFixer: 選択的マルチモーダル補正による文書解析のためのエージェントフレームワーク
Authors: LeKai Yu, Hao Liu, Kun Wang, Zhiran Li, Ruping Cao, Fan Liu, Yupeng Hu,
Abstract要約: 本稿では,バックボーン解析と選択的修正のためのエージェントフレームワークParseFixerを提案する。 ParseFixerは、Full-Page Backbone Parsing (FBP) と Agentic Selective Correction (ASC) の2つの主要なモジュールで構成されている。オープンソースのバックボーン解析の後、選択的なマルチモーダル修正を配置することで、ParseFixerは、信頼できるバックボーン予測を書き換えることなく、キードキュメント要素のリカバリを改善する。
参考スコア（独自算出の注目度）: 20.591821598269707
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report, we present our third-place solution for the DataMFM Challenge Track 1: Document Parsing. This track requires models to recover structured Markdown documents from document page images while preserving textual content and document structure. To address the complementary requirements of accurate content recovery and faithful structure reconstruction, we propose ParseFixer, an agentic framework for backbone parsing and selective correction. ParseFixer consists of two key modules: Full-Page Backbone Parsing (FBP) and Agentic Selective Correction (ASC). FBP produces stable initial Markdown outputs with MinerU2.5 Pro, while ASC detects high-value parsing failures and repairs them through a verify-and-rollback correction process. By placing selective multimodal correction after open-source backbone parsing, ParseFixer improves the recovery of key document elements without rewriting reliable backbone predictions. On the test set, our final system achieves an overall score of 61.78 and ranks third in Track 1, demonstrating its effectiveness for accurate document parsing. Our code will be released at: https://github.com/iLearn-Lab/CVPRW26-ParseFixer.
Abstract（参考訳）: 本稿では,DataMFM Challenge Track 1: Document Parsingの3位となるソリューションについて述べる。このトラックは、テキストの内容とドキュメント構造を保持しながら、ドキュメントページイメージから構造化されたMarkdownドキュメントを復元するモデルを必要とする。正確なコンテンツ回復と忠実な構造再構築の相補的な要求に対処するために,バックボーン解析と選択的修正のためのエージェントフレームワークであるParseFixerを提案する。 ParseFixerは、Full-Page Backbone Parsing (FBP) と Agentic Selective Correction (ASC) の2つの主要なモジュールで構成されている。 FBP は MinerU2.5 Pro で安定な初期マークダウン出力を生成し、ASC は高値解析失敗を検出し、検証とロールバックの修正プロセスを通じて修正する。オープンソースのバックボーン解析の後、選択的なマルチモーダル修正を配置することで、ParseFixerは、信頼できるバックボーン予測を書き換えることなく、キードキュメント要素のリカバリを改善する。テストセットでは,最終システムは総得点61.78で,トラック1の3位にランクインし,正確な文書解析の有効性を示した。私たちのコードは、https://github.com/iLearn-Lab/CVPRW26-ParseFixer.comでリリースされます。

関連論文リスト

MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing [74.84107522458798]
MPDocBench-Parseは、現実世界のアプリケーションにおけるマルチページ文書解析のためのベンチマークである。 433の注釈付き文書に3,246ページあり、英語と中国語の15種類の文書を網羅しており、レイアウトは様々である。
論文参考訳（メタデータ） (2026-05-21T07:36:41Z)
Parser-Oriented Structural Refinement for a Stable Layout Interface in Document Parsing [23.497081928689525]
インターフェースを安定させるために,DETR型検出器とインターフェースの間に軽量な構造改善ステージを導入する。原検出出力をコンパクトな仮説プールとして扱うことで、提案モジュールは、クエリ機能、セマンティックキュー、ボックス幾何学、視覚的エビデンスに関するセットレベル推論を行う。共有された構造状態から、インスタンスの保持を共同で決定し、ボックスのローカライゼーションを洗練し、ハンドオフ前に入力順序を予測する。提案手法はページレベルのレイアウト品質を常に改善することを示す。
論文参考訳（メタデータ） (2026-04-03T03:36:36Z)
Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文参考訳（メタデータ） (2026-03-13T14:42:21Z)
Dolphin-v2: Universal Document Parsing via Scalable Anchor Prompting [46.102790941920865]
2段階の文書画像解析モデルであるDolphin-v2を提案する。第1段階では、Dolphin-v2 はレイアウト解析とともに文書型分類(デジタル生まれか写真か)を共同で行う。第2段階では、撮影された文書は、幾何学的歪みを処理するために全ページとして一様に解析されるのに対し、デジタル生まれの文書は、検出されたレイアウトアンカーによって案内される要素的並列解析を行う。
論文参考訳（メタデータ） (2026-02-05T07:09:57Z)
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
Slide, Constrain, Parse, Repeat: Synchronous SlidingWindows for Document AMR Parsing [22.73441509190781]
本研究では,Structured-BARTの拡張により,文書レベルのAMRのオラクルと解析を開発する。我々の遷移オラクルは、スライド窓を用いても、金のクロスセグメントリンクのわずか8%しか失われていないことを示す。提案システムは,Multi-Sentence AMR 3.0コーパス上での文書レベルのAMR解析タスクに対して,最先端パイプライン方式と同等に動作する。
論文参考訳（メタデータ） (2023-05-26T21:38:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。