論文の概要: EviProp: Seeded Relevance Diffusion on Chunk-Page Graphs for Long Multimodal Document Retrieval
- arxiv url: http://arxiv.org/abs/2606.08979v1
- Date: Mon, 08 Jun 2026 03:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.679185
- Title: EviProp: Seeded Relevance Diffusion on Chunk-Page Graphs for Long Multimodal Document Retrieval
- Title(参考訳): EviProp: 長期マルチモーダル文書検索のためのチャンクページグラフの系列関係拡散
- Authors: Hongwei Zhang, Xiaoman Wang, Zehui Ling, Ruicheng Zhu, Yue Zhang, Pinlong Cai, Fuke Shen, Botian Shi, Tongquan Wei, Guohang Yan,
- Abstract要約: 本稿では,EviPropを提案する。EviPropは,シード関係拡散によるエビデンスページの検索手法である。
EviPropは、各ドキュメントを階層的、シーケンシャル、および類似性リンクを持つマルチモーダルのチャンクページグラフとしてモデル化する。
MMLongBench-DocとLongDocURLの実験は、独立した視覚検索とテキスト-視覚融合ベースラインよりも、エビデンスページ検索が一貫した増加を示している。
- 参考スコア(独自算出の注目度): 22.402302777838724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving evidence pages from visually rich long documents is a key challenge in document question answering. Existing page-level visual retrievers operate under an independent matching paradigm: each page is scored in isolation based on query-page similarity. This paradigm can under-rank evidence pages whose signals are localized in fine-grained chunks or depend on document-internal associations. We propose EviProp, a retrieval method that recovers such pages via seeded relevance diffusion. EviProp models each document as a multimodal Chunk-Page graph with hierarchical, sequential, and similarity links. Given a query, it combines dense visual page priors with sparse chunk seeds, then runs Personalized PageRank to diffuse relevance over the graph. Experiments on MMLongBench-Doc and LongDocURL show consistent gains in evidence-page retrieval over independent visual retrieval and text-visual fusion baselines. Downstream QA results further show that improved retrieval translates into better answer accuracy, with negligible online retrieval overhead. Our code is released at https://github.com/Flyecnu/EviProp.
- Abstract(参考訳): 視覚的に豊かな長いドキュメントからエビデンスページを取得することは、文書質問応答における重要な課題である。
既存のページレベルのビジュアルレトリバーは、独立したマッチングパラダイムの下で動作します。
このパラダイムは、信号がきめ細かなチャンクにローカライズされたエビデンスページや、文書内部の関連性に依存しているエビデンスページをランク付けすることができる。
EviPropは,シードレバレンス拡散によってそのようなページを復元する検索手法である。
EviPropは、各ドキュメントを階層的、シーケンシャル、および類似性リンクを持つマルチモーダルのチャンクページグラフとしてモデル化する。
クエリが与えられたら、濃密なビジュアルページの先行とスパースチャンクのシードを組み合わせて、パーソナライズされたPageRankを実行して、グラフ上の関連性を拡散する。
MMLongBench-DocとLongDocURLの実験は、独立した視覚検索とテキスト-視覚融合ベースラインよりも、エビデンスページ検索が一貫した増加を示している。
ダウンストリームQAの結果は、改善された検索がより良い回答精度に変換され、オンライン検索のオーバーヘッドが無視できることを示している。
私たちのコードはhttps://github.com/Flyecnu/EviProp.orgで公開されています。
関連論文リスト
- Doc-V*:Coarse-to-Fine Interactive Visual Reasoning for Multi-Page Document VQA [71.42483000929614]
複数ページのドキュメント 視覚的質問回答は、長い、視覚的に密集したドキュメントにおける意味論、レイアウト、および視覚的要素の推論を必要とする。
我々は,多ページDocVQAをシーケンシャルエビデンスアグリゲーションとしてキャストするtextbfOCRフリーエージェントフレームワークであるDoc-$V*$を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:12:27Z) - ReAlign: Optimizing the Visual Document Retriever with Reasoning-Guided Fine-Grained Alignment [28.897559367200376]
ビジュアルドキュメント検索は、視覚的にリッチなコレクションからクエリに関連するドキュメントページの集合を検索することを目的としている。
既存の手法では、クエリやビジュアルページを共有埋め込み空間にエンコードするために、VLM(Vision-Language Models)を用いることが多い。
そこで我々は,Reasoning-Guided Alignment (ReAlign)を提案する。
論文 参考訳(メタデータ) (2026-04-08T14:47:27Z) - $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文 参考訳(メタデータ) (2026-01-29T17:52:54Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - MHier-RAG: Multi-Modal RAG for Visual-Rich Document Question-Answering via Hierarchical and Multi-Granularity Reasoning [5.55667293255701]
マルチモーダルな長文文書問合せタスクは、複数のページに分散したマルチモーダルなエビデンスを特定し、統合することを目的としている。
既存の手法はLVLM(Large Vision-Language Model)とRAG(Retrieval-Augmented Generation)に分類できる。
MHier-RAGと呼ばれる新しいマルチモーダルRAGモデルが提案され、テキスト情報と視覚情報の両方を長距離ページにわたって活用した。
論文 参考訳(メタデータ) (2025-08-01T12:22:53Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement [17.272061289197342]
Document Visual Question Answering (DocVQA)は実用的で難しいタスクである。
最近の手法は、同様のRAG(Retrieval Augmented Generation)パイプラインに従う。
DocVQA用の拡張フレームワークであるSimpleDocを紹介します。
論文 参考訳(メタデータ) (2025-06-16T22:15:58Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。