論文の概要: FLOWREADER: Min-Cost Flow Optimization for Multi-Modal Long Document Q&A
- arxiv url: http://arxiv.org/abs/2606.07235v2
- Date: Mon, 08 Jun 2026 12:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.071094
- Title: FLOWREADER: Min-Cost Flow Optimization for Multi-Modal Long Document Q&A
- Title(参考訳): FLOWREADER:マルチモーダル文書Q&Aのための最小コストフロー最適化
- Authors: Ambuj Mehrish, Sebastiano Vascon,
- Abstract要約: 本稿では,マルチモーダルノードグラフ上で,エビデンスアセンブリをミニコストフロー問題として再設計するFLOWREADERを紹介する。
最適流れは候補エビデンスパスに分解され、コンパクトな非冗長部分集合はエントロピー規則化された複製子ダイナミクスによって選択される。
FLOWREADERはPaperTabとSlideVQAが支配する2つのサブセットで最良である。
- 参考スコア(独自算出の注目度): 6.071121358322323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long, multimodal documents force retrieval-augmented systems to assemble answers from evidence fragmented across text, tables, and slides broken across cells in a long table, spread over multiple slides, or split between a figure and its discussion. Top-$k$ chunk retrieval treats each fragment independently and cannot represent how evidence connects. We introduce FLOWREADER, which reframes evidence assembly as a min-cost flow problem on a multimodal node graph: a single scoring vector $h$ controls source selection (via MMR), sink selection (via a length-aware answerability proxy), and the costs and capacities of every edge. The optimal flow is decomposed into candidate evidence paths, a compact non-redundant subset is selected by entropy-regularized replicator dynamics, and parallel VLM workers under a dual-process gate produce the answer with a single System-2 refinement pass triggered when answer consistency is low or the routed flow is strained. On VisDoMBench, FLOWREADER is best on the two subsets dominated by fragmented evidence PaperTab ($58.40$, $+1.30$ over G^{2}-Reader) and SlideVQA ($72.93$, $+0.62$) and competitive on SPIQA, FetaTab, and SciGraphQA. Macro-averaged across all five subsets, FLOWREADER ($65.47$) is within $0.74$ of the strongest baseline (G^{2}-Reader, $66.21$). Overall, these results show that min-cost flow performs well on fragmented multimodal evidence, where top-$k$ retrieval fails. It also provides a unified way to control scoring, routing, selection, and adaptive compute together.
- Abstract(参考訳): 長いマルチモーダル文書は、検索強化されたシステムに、テキスト、テーブル、スライドで断片化されたエビデンスからの回答を、長いテーブルのセルに分散させたり、複数のスライドに分散させたり、図と議論を分割したりするよう強制する。
トップ$kのチャンク検索は、各フラグメントを独立して扱い、エビデンスがどのように結びつくかを表現できない。
単一スコアリングベクトル$h$はソース選択(MMR)、シンク選択(長さ対応の応答性プロキシ)、各エッジのコストと容量を制御する。
最適フローを候補エビデンスパスに分解し、エントロピー規則化された複製子ダイナミクスによりコンパクトな非冗長サブセットを選択し、デュアルプロセスゲート下の並列VLMワーカーは、応答整合性が低かったり、経路流れが歪んだりした場合に、単一のSystem-2精細パスで応答を生成する。
VisDoMBenchでは、FLOWREADERは、断片化された証拠によって支配される2つのサブセット(PaperTab (58.40$, $+1.30$ over G^{2}-Reader)とSlideVQA (72.93$, $+0.62$)で最良であり、SPIQA、FetaTab、SciGraphQAで競合する。
FLOWREADER(65.47ドル)は5つのサブセットで平均で、最強のベースライン(G^{2}-Reader, 6,21ドル)の0.74ドル以内である。
これらの結果から, 分断されたマルチモーダルなエビデンスに対して, 最小コストのフローが良好に動作し, 上位k$の検索が失敗することがわかった。
また、スコアリング、ルーティング、選択、適応的な計算を一緒に制御する統一的な方法を提供する。
関連論文リスト
- Constrained Dominant Sets for Multimodal Document Question Answering [3.7607300100158345]
長いマルチモーダルな文書質問応答は、取得された量よりも、証拠が読み手に届く程度に制限される。
この研究は、クエリ拡張親和性グラフ上の制約付き支配セットとしてエビデンスを選択するレトリバーを導入する。
論文 参考訳(メタデータ) (2026-06-05T13:24:46Z) - GridProbe: Posterior-Probing for Adaptive Test-Time Compute in Long-Video VLMs [3.9266376632068485]
GridProbeは、効率的なトレーニング不要な後処理推論パラダイムである。
解答空間における証拠は、凍結したVLM自身の推論を用いて得られる。
疑似関連フレームを適応的に選択し、精度の損失が少なくて、準四分法的な注意コストをもたらす。
論文 参考訳(メタデータ) (2026-05-11T15:57:46Z) - Doc-V*:Coarse-to-Fine Interactive Visual Reasoning for Multi-Page Document VQA [71.42483000929614]
複数ページのドキュメント 視覚的質問回答は、長い、視覚的に密集したドキュメントにおける意味論、レイアウト、および視覚的要素の推論を必要とする。
我々は,多ページDocVQAをシーケンシャルエビデンスアグリゲーションとしてキャストするtextbfOCRフリーエージェントフレームワークであるDoc-$V*$を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:12:27Z) - Lightweight Query Routing for Adaptive RAG: A Baseline Study on RAGRouter-Bench [0.0]
ベンチマーク RAG-Bench citepwang2026ragrouterbench を用いた軽量分類器に基づくルーティングの体系的評価を行った。
SVMを使用したTF-IDFは、$mathbf0.928$のマクロ平均F1と$mathbf93.2%$の精度を実現し、$mathbf28.1%のトークンセーブをシミュレートします。
論文 参考訳(メタデータ) (2026-04-03T20:58:00Z) - PAR$^2$-RAG: Planned Active Retrieval and Reasoning for Multi-Hop Question Answering [57.89576196160413]
大規模言語モデル (LLM) はマルチホップ質問応答 (MHQA) において脆弱のままである。
textbfPlanned Active Retrieval and Reasoning RAG (PAR$2-RAG)を提案する。
論文 参考訳(メタデータ) (2026-03-30T23:52:54Z) - When Agents Disagree: The Selection Bottleneck in Multi-Agent LLM Pipelines [0.0]
マルチエージェントLLMパイプラインは、チームの多様性がアウトプット品質を改善するかどうかという矛盾した証拠を生み出します。
多様性が役に立つか傷つくかを判断する選択ボトルネックを特定することで解決法を提案する。
この結果から, セレクタの品質は, 単ラウンドジェネレータ選択パイプラインにおけるジェネレータの多様性よりも, より影響の高い設計レバーである可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-20T00:50:53Z) - $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文 参考訳(メタデータ) (2026-01-29T17:52:54Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。