論文の概要: VinQA: Visual Elements Interleaved Long-form Answer Generation for Real-World Multimodal Document QA
- arxiv url: http://arxiv.org/abs/2606.16092v1
- Date: Mon, 15 Jun 2026 01:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.026871
- Title: VinQA: Visual Elements Interleaved Long-form Answer Generation for Real-World Multimodal Document QA
- Title(参考訳): VinQA: リアルタイムマルチモーダル文書QAのためのロングフォームアンサー生成用ビジュアル要素
- Authors: Young Rok Jang, Hyesoo Kong, Kyunghwan An, Jae Sub Huh, Gyeonghun Kim, Stanley Jungkyu Choi,
- Abstract要約: VinQAは、引用された視覚要素がサポートテキストと明示的にインターリーブされた長文回答生成のためのデータセットである。
生文書のページイメージをMLLMに入力する2つのエンコーディング手法と,その視覚的要素抽出機構について検討した。
本実験では, 完全性, 回答関連性, 忠実性, 障害性という4次元の回答を評価するために, M-GroSEを提案する。
- 参考スコア(独自算出の注目度): 7.046359260432822
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world documents combine text with tables, charts, photographs, and diagrams arranged in diverse layouts, yet existing research on multimodal large language models (MLLMs) for document QA predominantly produces text-only responses, underutilizing these visual elements. We introduce VinQA, a dataset for long-form answer generation where cited visual elements are explicitly interleaved with their supporting text and grounded in relevant document pages. To support this task, we study two encoding methods for feeding raw document page images into an MLLM, along with their visual-element citation mechanisms: (1) Page Encoding, which directly encodes full-page images with bounding boxes of visual elements and treats these boxed regions as citable units; and (2) Modality Encoding, which parses each page to extract text and crop visual elements, encodes them separately, and uses these cropped elements as citable units. In our experiments, we propose M-GroSE, a multimodal evaluation framework extending GroUSE to assess answers along four dimensions: completeness, answer relevancy, faithfulness, and unanswerability. We additionally report Visual Source F1 to directly measure visual citation accuracy. Although proprietary frontier models still achieve the best overall scores on the VinQA test split, fine-tuning open Qwen2.5-VL models on the training split substantially improves their performance and narrows this gap. Modality Encoding is initially more robust for complex documents with long text, many visual elements, and diverse citation requirements. After training on VinQA, however, Page Encoding reaches a comparable level, competing effectively even without the explicit parsing used in Modality Encoding. Finally, Visual G-Eval, an MLLM-based judge, confirms that fine-tuned models insert visual elements at semantically appropriate positions with faithful supporting text.
- Abstract(参考訳): 実世界の文書は、テキストと表、チャート、写真、図を様々なレイアウトで配置するが、文書QAのためのマルチモーダルな大規模言語モデル(MLLM)に関する既存の研究は、主にテキストのみの応答を生成し、これらの視覚的要素を過小評価している。
VinQAは、引用された視覚要素がサポートテキストと明示的にインターリーブされ、関連する文書ページでグラウンド化される、長文の回答生成のためのデータセットである。
本課題を支援するために, MLLM に生文書ページイメージを供給するための2つの符号化手法と, その視覚的引用機構について検討した。(1) 視覚的要素の束縛されたボックスで全ページ画像を直接符号化し, ボックス化された領域を整合単位として扱うページエンコーディング, (2) テキストや作物の視覚的要素を解析し, 別々に符号化するモダリティエンコーディング, そしてこれらを整合単位として利用するページエンコーディング。
本実験で提案するM-GroSEは,Grouseを拡張して,完全性,回答関連性,忠実性,不解性という4次元の回答を評価するためのマルチモーダル評価フレームワークである。
また、視覚的引用精度を直接測定するために、Visual Source F1を報告する。
プロプライエタリなフロンティアモデルは、VinQAテストスプリットで最高のスコアを得るが、トレーニングスプリットで微調整されたQwen2.5-VLモデルは、パフォーマンスを大幅に改善し、このギャップを狭める。
Modality Encoding は当初、長いテキスト、多くの視覚要素、多様な引用要求を持つ複雑なドキュメントに対してより堅牢である。
しかし、VinQAのトレーニングの後、Page Encodingは同等のレベルに達し、Modality Encodingで使われる明示的な解析なしでも効果的に競合する。
最後に、MLLMベースの判断器であるVisual G-Evalは、微調整されたモデルが、忠実なサポートテキストで意味的に適切な位置に視覚要素を挿入することを確認した。
関連論文リスト
- Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation [19.889854990300595]
反復検索拡張生成(iRAG)は、複雑なマルチホップ問題に答える強力なパラダイムとして登場した。
Evidence (CoE) の textbfChain について述べる。
論文 参考訳(メタデータ) (2026-05-02T06:40:42Z) - Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。
テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。
不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文 参考訳(メタデータ) (2026-03-13T14:42:21Z) - VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文 参考訳(メタデータ) (2026-02-04T17:48:55Z) - PARL: Position-Aware Relation Learning Network for Document Layout Analysis [23.497081928689525]
効果的なレイアウト解析は,テキストと視覚の融合ではなく,文書の本質的な視覚構造を深く理解することに依存する。
位置感度とリレーショナル構造を用いてレイアウトをモデル化する新しいOCRフリー・ビジョンオンリーのフレームワークを提案する。
実験により、PARL (65M) は大規模マルチモーダルモデルより約4倍少ないパラメータを用いて非常に効率的であることが示されている。
論文 参考訳(メタデータ) (2026-01-12T15:05:35Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding [42.506971197471195]
ドキュメント解析のために約3.8Mの事前学習データペアで構成されるDocMark-Pileと、グラウンドド命令に従うための624kの微調整データアノテーションを備えたDocMark-Instructの2つのきめ細かい構造化データセットを紹介した。
提案手法は,様々なビジュアル文書理解ベンチマークにおいて,既存の最先端MLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-05-08T17:37:36Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。