論文の概要: Lost at the End: Primacy Bias in Multimodal Retrieval-Augmented Question Answering
- arxiv url: http://arxiv.org/abs/2606.16494v1
- Date: Mon, 15 Jun 2026 09:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.359771
- Title: Lost at the End: Primacy Bias in Multimodal Retrieval-Augmented Question Answering
- Title(参考訳): 終わりに失う:マルチモーダル検索におけるプライマリーバイアス
- Authors: Jieyuan Liu, Jianyang Gu, Shijie Chen, Jefferson Chen, Zhen Wang,
- Abstract要約: 知識に基づく視覚的質問応答 (KB-VQA) は、ウィキペディア規模の知識ベースから取得したパスに読者を条件付けすることで、視覚言語システムがパラメトリック知識を超える質問に答えることを可能にする。
純文長文LLMでは、検索されたコンテキストの使用は、LiuらのU字型の"lost-in-the-middle"効果(2024年)に従っている。
マルチモーダルKB-VQAにおける読み手側の位置依存を制御した最初のプローブを設計する。
- 参考スコア(独自算出の注目度): 16.609938332514243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge-based visual question answering (KB-VQA) lets vision-language systems answer questions that exceed their parametric knowledge by conditioning a reader on passages retrieved from a Wikipedia-scale knowledge base. In pure-text long-context LLMs, retrieved-context use follows the U-shaped "lost-in-the-middle" effect of Liu et al. (2024): information at the start and end of context is used, the middle is lost. Whether this transfers to deployed multimodal KB-VQA is open. To close this gap, we design the first controlled probe of reader-side position dependence in multimodal KB-VQA: a gold-position protocol in which only the gold passage's prompt slot varies within question. We run it on three open-source 7B/8B VLM readers and two KB-VQA benchmarks at k up to 20. The shape flips from U to primacy: gold-at-first beats gold-at-last by 16 to 26 points on every reader-by-benchmark cell, an effect we call "Lost at the End". Three targeted ablations narrow the cause: a text-only control shows the multimodal setting amplifies an already-present text-mode primacy 2.2 to 4.5 times, and image-position and distractor-shuffle ablations together pin the locus to prompt slot 0 of the instruction-tuned reader. On a frozen reader, three retrieval-side fixes (MMR, oracle reranking, rank-based reordering) all leave the gap intact (no separable improvement). Our findings indicate that recall@k is the wrong metric for deployed KB-VQA and that closing the gap requires reader-side intervention; we release our protocol as a controlled instrument for evaluating such interventions.
- Abstract(参考訳): 知識に基づく視覚的質問応答 (KB-VQA) は、ウィキペディア規模の知識ベースから取得したパスに読者を条件付けすることで、視覚言語システムがパラメトリック知識を超える質問に答えることを可能にする。
純文長文 LLM では、検索されたコンテキストの使用は、Liu et al (2024) の U 字型の "lost-in-the-middle" 効果に従っている。
これがデプロイされたマルチモーダルKB-VQAに転送されるかどうかは不明だ。
このギャップを埋めるため、本研究では、ゴールドパスのプロンプトスロットのみを問うゴールドポジションプロトコルであるマルチモーダルKB-VQAにおいて、読み取り側の位置依存を制御した最初のプローブを設計する。
3つのオープンソース7B/8B VLMリーダーと2つのKB-VQAベンチマークで、kから20まで実行しています。
ゴールド・アット・ファーストがゴールド・アット・ラストを16ポイントから26ポイント上回ったとき、その形はUからプライマリーに変わります。
テキストのみの制御は、既に表示されているテキストモードプライマリ2.2〜4.5倍のマルチモーダル設定を増幅し、イメージポジションとインタラプタシャッフルのアブレーションを合わせて、ローカスをピン留めして、命令付きリーダーのスロット0をプロンプトする。
フリーズリーダーでは、3つの検索側修正(MMR、オラクルのリランク、ランクベースのリオーダー)がすべて、ギャップをそのままにしておく(分離可能な改善はない)。
以上の結果から,リコール@kはKB-VQAの間違った基準であり,そのギャップを埋めるには読者側による介入が必要であることが示唆された。
関連論文リスト
- Answer Presence Drives RAG Rewriting Gains [21.554301305644156]
検索可能な増補QAパイプラインは、小さい読み手より前に、LLMエンプレライターを介して取得した経路をルートすることが多い。
我々は、リライトコンテキストに現れる金の応答文字列によって、リフトが因果的に駆動されるかどうかを問う。
論文 参考訳(メタデータ) (2026-06-04T03:00:42Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - Phrase Retrieval for Open-Domain Conversational Question Answering with
Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。
そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:46:38Z) - A Symmetric Dual Encoding Dense Retrieval Framework for
Knowledge-Intensive Visual Question Answering [16.52970318866536]
KI-VQA (Knowledge-Intensive Visual Question Answering) とは、画像に答えがない画像についての質問に答えることである。
本稿では, KI-VQAタスクのための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-26T16:14:39Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Explicit Memory Tracker with Coarse-to-Fine Reasoning for Conversational
Machine Reading [177.50355465392047]
本稿では,EMT(Explicit Memory Tracker)を用いた会話機械読取フレームワークを提案する。
我々のフレームワークは、粗大な推論戦略を採用することによって、明確化の質問を生成する。
EMTは74.6%のマイクロ平均決定精度と49.5BLEU4の新たな最先端結果を達成する。
論文 参考訳(メタデータ) (2020-05-26T02:21:31Z) - Differentiable Reasoning over a Virtual Knowledge Base [156.94984221342716]
コーパスを仮想知識ベース(KB)として,複雑なマルチホップ質問に答えるタスクについて検討する。
特に、コーパス内のエンティティの参照間の関係の経路をソフトに追従し、KBのようにテキストデータをトラバースするDrKITについて述べる。
DrKITは非常に効率的で、既存のマルチホップシステムよりも毎秒10-100倍のクエリを処理する。
論文 参考訳(メタデータ) (2020-02-25T03:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。