Fugu-MT 論文翻訳(概要): Constrained Dominant Sets for Multimodal Document Question Answering

論文の概要: Constrained Dominant Sets for Multimodal Document Question Answering

arxiv url: http://arxiv.org/abs/2606.07252v1
Date: Fri, 05 Jun 2026 13:24:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.752563
Title: Constrained Dominant Sets for Multimodal Document Question Answering
Title（参考訳）: マルチモーダル文書質問応答のための制約付き支配集合
Authors: Ambuj Mehrish, Sebatiano Vascon,
Abstract要約: 長いマルチモーダルな文書質問応答は、取得された量よりも、証拠が読み手に届く程度に制限される。この研究は、クエリ拡張親和性グラフ上の制約付き支配セットとしてエビデンスを選択するレトリバーを導入する。
参考スコア（独自算出の注目度）: 3.7607300100158345
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long multimodal document question answering is limited by which evidence reaches the reader, rather than by the quantity retrieved. In lengthy documents, findings often recur across figures, captions, and introductory sentences, causing similarity based retrievers in modern multimodal retrieval-augmented generation (RAG) systems to allocate resources to near-duplicates while overlooking complementary evidence. This work introduces a retriever that selects evidence as a Constrained Dominant Set (CDS) on a query-augmented affinity graph, offering three advantages that similarity ranking does not. First, the query is encoded as a hard structural constraint, ensuring that every selected element is directly connected to the question through the cluster anchor. Second, the relevance-redundancy balance is determined automatically by a spectral bound, eliminating the need for manually tuned trade offs required by diversity-aware selectors. Third, the selection process achieves a global equilibrium via replicator dynamics, thereby avoiding the distortions introduced by greedy heuristics. The method is inherently graph-based and does not require training. Using a Qwen3-VL-32B reader, CDS establishes a new state of the art on VisDoMBench ($66.99$ average) and improves over the no-retrieval baseline by $37.1$ points on VisDoMBench and $4.8$ on MMLongBench-Doc.
Abstract（参考訳）: 長いマルチモーダルな文書質問応答は、取得された量よりも、証拠が読み手に届く程度に制限される。長い文書では、発見はしばしば図形、キャプション、導入文に再帰し、現代のマルチモーダル検索拡張世代(RAG)システムにおいて類似性に基づく検索者が相補的な証拠を見落としながら資源をほぼ重複に割り当てる。本研究では,クエリ拡張親和性グラフ上で,CDS(Constrained Dominant Set)としてエビデンスを選択するレトリバーを導入する。まず、クエリはハードな構造制約としてエンコードされ、選択された各要素がクラスタアンカーを介して質問に直接接続されることを保証する。第二に、関連性/冗長バランスはスペクトル境界によって自動的に決定され、多様性を考慮したセレクタが必要とするトレードオフを手動で調整する必要がなくなる。第三に、選択過程はレプリケータダイナミクスを介して大域的均衡を達成するため、グリーディヒューリスティックスによってもたらされる歪みを避けることができる。この方法は本質的にグラフベースであり、トレーニングを必要としない。 Qwen3-VL-32Bリーダーを使用して、CDSは新しい最先端のVisDoMBench(平均66.99ドル)を確立し、非検索ベースラインをVisDoMBenchで37.1ドル、MMLongBench-Docで4.8ドル改善する。

関連論文リスト

R$^3$AG: Retriever Routing for Retrieval-Augmented Generation [59.47703698994575]
R$3$AGは、検索機能を2つの学習可能なディメンション、すなわち検索品質と生成ユーティリティに分解する。 R$3$AGは、最高の個々のレトリバーと最先端の静的ルーティングメソッドの両方を一貫して上回っている。
論文参考訳（メタデータ） (2026-04-22T06:51:20Z)
MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries [2.756584457554517]
Map-Disambiguate-Enrich-Reduce (MDER)はコンテキスト由来の3重記述を生成し、エンティティレベルの要約と統合する。 Decompose-Resolve (DR)は、ユーザクエリを解決可能なトリプルに分解し、知識グラフに格納する。 MDERとDRはLLM駆動のQAパイプラインを形成し、スパース、不完全、複雑なリレーショナルデータに対して堅牢である。
論文参考訳（メタデータ） (2026-03-11T18:38:44Z)
LITTA: Late-Interaction and Test-Time Alignment for Visually-Grounded Multimodal Retrieval [0.0]
LITTAは、エビデンスページ検索のためのクエリ拡張中心の検索フレームワークである。ユーザクエリが与えられた後、LITTAは大きな言語モデルを使用して補完的なクエリ変種を生成する。拡張されたクエリからの候補は、エビデンスカバレッジを改善するために、相互のランクフュージョンを通じて集約される。
論文参考訳（メタデータ） (2026-03-10T13:25:39Z)
MARA: A Multimodal Adaptive Retrieval-Augmented Framework for Document Question Answering [51.19392014547221]
検索型マルチモーダル文書QAは,視覚的にリッチな文書から複雑なマルチモーダル構造を持つ関連情報を識別し,統合することを目的としている。現在のアプローチは、サージェントなコンテンツを見渡すクエリに依存しないドキュメント表現に依存しています。本稿では,クエリ適応生成を導入したMultimodal Adaptive Retrieval-Augmented (MARA)フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-01T12:27:40Z)
$G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。 Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。 5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文参考訳（メタデータ） (2026-01-29T17:52:54Z)
Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文参考訳（メタデータ） (2026-01-27T00:46:08Z)
Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文参考訳（メタデータ） (2025-11-28T03:09:40Z)
Hierarchical Sequence Iteration for Heterogeneous Question Answering [27.22775290181187]
本稿では,文書,表,知識グラフを可逆的階層列に線形化する統一フレームワークであるHSEQを紹介する。 HotpotQA(テキスト)、HybridQA/TAT-QA(テーブル+テキスト)、MetaQA(KG)の実験では、強いシングルパス、マルチホップ、エージェントRAGベースラインを高い効率で一貫したEM/F1が得られた。
論文参考訳（メタデータ） (2025-10-23T12:48:18Z)
Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文参考訳（メタデータ） (2025-10-21T13:37:11Z)
Cluster-based Adaptive Retrieval: Dynamic Context Selection for RAG Applications [8.946586077722822]
クラスタベースのAdaptive Retrieval (CAR) は、順序付きクエリ文書類似度距離のクラスタリングパターンを分析して、最適な文書数を決定するアルゴリズムである。 CARは、常に最適な検索深度を選択し、最高TESスコアを達成し、固定されたトップkベースラインを全て上回る。
論文参考訳（メタデータ） (2025-10-02T05:11:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。