論文の概要: Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation
- arxiv url: http://arxiv.org/abs/2606.18781v1
- Date: Wed, 17 Jun 2026 07:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.050283
- Title: Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation
- Title(参考訳): 単一ベクトルにおける損失:チャンクエビデンスアグリゲーションによる長期文書検索の改善
- Authors: Shanshan Lyu, Yiwei Wang, Yujun Cai, Jiafeng Guo, Shenghua Liu,
- Abstract要約: DICEは、ドキュメントをチャンクに分割し、凍結したモデルで独立してエンコードし、それらを単一のベクタに集約する、トレーニング不要のドキュメントサイド戦略である。
LongEmbedでは、DICEは4つのバックボーン間の検索を改善し、4kトークンを超えるスライスで最大の利益を上げている。
12,779個のフィルターサンプルのうち、DICEは92.8%のケースで単一ベクトルベースラインよりも低いEDIが得られる。
- 参考スコア(独自算出の注目度): 59.438696079345426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrieval ranks one query vector against one document vector. On long documents, this interface can fail when a short but decisive span is weakened during document encoding before ranking. We study this failure mode as document-side early compression and introduce the Evidence Dilution Index (EDI) to measure how far a document-level representation falls below the strongest chunk-level evidence within the same gold document. Guided by this view, we propose DICE (Document Inference via Chunk Evidence), a training-free document-side strategy that splits documents into chunks, encodes them independently with a frozen model, and aggregates them back into a single vector while preserving the standard one-query-one-document interface. On LongEmbed, DICE improves retrieval across four backbones, with the largest gains on slices beyond 4k tokens: for Dream, Passkey >4k rises from 30.0 to 90.0 and Needle >4k from 23.3 to 74.0. Across 12,779 filtered samples, DICE yields lower EDI than the single-vector baseline in 92.8% of cases. These results establish document-level encoding as a practical and underexplored lever for long-document retrieval.
- Abstract(参考訳): デンス検索は、1つのドキュメントベクトルに対して1つのクエリベクトルをランク付けする。
長いドキュメントでは、このインターフェースは、ランキングの前に文書エンコーディング中に短いが決定的なスパンが弱まると失敗する可能性がある。
我々は、この障害モードを文書側早期圧縮として検討し、同じゴールド文書内の最強のチャンクレベル証拠よりも文書レベルの表現がどの程度低いかを測定するために、エビデンス希釈指標(EDI)を導入する。
そこで本研究では,文書をチャンクに分割し,凍結したモデルで独立にエンコードし,単一のベクタに集約し,標準のワンクエリ・ワンドキュメントインターフェースを保ちながら,文書を単一のベクタに集約する,トレーニングフリーなドキュメントサイド戦略であるDICE(Document Inference via Chunk Evidence)を提案する。
LongEmbedでは、DICEは4つのバックボーンの検索を改善し、4kトークンを超えるスライスで最大のゲインを達成している。Dream、Passkey >4kは30.0から90.0、Needle >4kは23.3から74.0である。
12,779個のフィルターサンプルのうち、DICEは92.8%のケースで単一ベクトルベースラインよりも低いEDIが得られる。
これらの結果は文書レベルの符号化を,文書検索のための実用的で未探索のレバーとして確立する。
関連論文リスト
- A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval [8.560410767537162]
Visual RAGは文書をイメージとして扱い、視覚パッチトークンを取得するために視覚エンコーダを使用する。
文書ごとに数百のパッチトークンが、ベクトルデータベースにおける検索とストレージの課題を生み出します。
単一ベクターアグリゲーションは、財務文書の重要な情報を失うのか?
論文 参考訳(メタデータ) (2026-05-14T08:53:40Z) - DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search [23.447631421934847]
DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。
DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
論文 参考訳(メタデータ) (2026-02-04T20:03:28Z) - Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe [42.35197658021889]
一致するクエリとドキュメントのペアを類似したベクトル表現に埋め込んだデュアルエンコーダ(DE)モデルは、情報検索に広く利用されている。
本稿では,階層的検索(HR)の文脈において,文書集合が階層構造を持ち,クエリに適合する文書がすべてその祖先であるような制約について検討する。
近い文書の性能を犠牲にすることなく、長距離検索を大幅に改善するプレトレインファインチューンレシピを提案する。
論文 参考訳(メタデータ) (2025-09-19T20:35:58Z) - Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。