論文の概要: SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invariance
- arxiv url: http://arxiv.org/abs/2606.09441v1
- Date: Mon, 08 Jun 2026 12:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.071212
- Title: SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invariance
- Title(参考訳): SIFT:アテンション不変性の爆発によるRAGプリフィルの高速計算のための選択インデックス
- Authors: Rya Sanovar, Srikant Bharadwaj, Hritvik Taneja, Moinuddin Qureshi,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、応答品質を改善するために、関連するドキュメントにクエリを注入する。
RAGクエリは、ユーザクエリ間で同じドキュメントが再帰する、コンテキスト再利用のユニークな特性を持っています。
本稿では, SIFT: Selective-Index for Fast Compute of RAG Prefill by Exploiting Attention Invarianceを提案する。
- 参考スコア(独自算出の注目度): 1.8910966359238461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) injects LLM queries with relevant documents to improve response quality. This injection increases prompt length and slows time to first token (TTFT). Unlike standard queries, RAG queries have a unique property of context reuse where the same documents recur across user queries. Thus, fully recomputing documents for every RAG query does redundant compute and increases TTFT. Prior works precompute KV tensors of RAG documents offline and coarsely recompute some tokens during online prefill. However, such KV reuse is often slower than full recomputation on modern GPUs due to high-latency disk transfers. Further, such a coarse-grained recomputation degrades accuracy. To address these limitations, this paper proposes SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invariance. SIFT processes documents offline and extracts fine-grained locations of high attention scores for each document. Next, we identify the following attention invariance insights that enable us to exploit the extracted locations during runtime: (1) Local-Attention Invariance: The location of high attention scores within a document remain invariant to surrounding documents. This helps us predict the location of high scores where the document attends to itself. (2) Cross-Attention Consistency: Keys with high intra-document attention also attract cross-attention from subsequent documents. This helps us predict the location of high scores where the document attends to future documents. Critically, SIFT stores no KV data and only stores locations of high scores in the form of two compact bit vectors. SIFT's storage is up to 24,000x smaller than KV tensors, obviating costly disk transfers. During prefill, SIFT computes the attention only for the marked locations and improves TTFT by 1.71x while holding accuracy within 1% of full recompute.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、LLMクエリに関連文書を注入し、応答品質を向上させる。
このインジェクションは即時の長さを増大させ、最初のトークン(TTFT)に時間を短縮する。
通常のクエリとは異なり、RAGクエリはコンテキスト再利用のユニークな特性を持ち、同じドキュメントがユーザクエリ間で再帰する。
したがって、RAGクエリ毎に完全に再計算されたドキュメントは冗長な計算を行い、TTFTを増加させる。
以前の作業では、RAG文書のKVテンソルをオフラインでプリ計算し、オンラインプリフィル中にいくつかのトークンを粗く再計算する。
しかし、そのようなKVの再利用は、高遅延ディスク転送のため、現代のGPUの完全再計算よりも遅いことが多い。
さらに、粗粒再計算は精度を低下させる。
本稿では, SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invarianceを提案する。
SIFTは文書をオフラインで処理し、各文書の注目点のきめ細かい位置を抽出する。
次に、実行時に抽出した場所を活用できる注意不分散の洞察を以下に示す。 1) 局所的注意不分散: 文書内の注目スコアの位置は、周辺文書と不変である。
これにより、ドキュメントがそれに参加するハイスコアの位置を予測するのに役立ちます。
2)クロスアテンションの整合性:ドキュメント内注目度の高いキーも、その後の文書からクロスアテンションを惹きつける。
これにより、ドキュメントが将来のドキュメントに付随する高いスコアの位置を予測するのに役立ちます。
重要な点として、SIFTはKVデータを格納せず、2つのコンパクトビットベクトルの形で高得点の位置のみを格納する。
SIFTのストレージは、KVテンソルよりも最大24,000倍小さく、高価なディスク転送を妨げている。
プリフィルの間、SIFTはマークされた場所のみに注意を計算し、TTFTを1.71倍改善し、完全再計算の1%以内の精度で保持する。
関連論文リスト
- RealDocBench: A Benchmark for Field-Level QA and Layout Understanding on Real-World Regulated Documents [0.9003228139607131]
文書解析システムは、住宅ローンの引受、財務報告、サプライチェーンのロジスティクス、臨床記録などの規制された領域にますます多く展開されている。
ほとんどの公開ベンチマークは、学術的なレイアウトや合成散文のアダプタを評価し、単一のOCRまたはマークダウンレベルの類似度スコアを報告している。
実際に規制された文書から構築された2トラックのベンチマークであるRealDocBenchを紹介する。
論文 参考訳(メタデータ) (2026-06-05T15:41:34Z) - LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding [11.799175681800696]
キーバリュー(KV)キャッシュは、生成されたトークンに対する過去の計算を再利用することで、大きな言語モデル(LLM)の推論を加速する。
既存のソリューションは、再利用をプレフィックスに制限するか、位置再符号化のために高価なメモリの実体化を必要とする。
本稿では、遅延位置符号化をカーネル化し、ゼロコピーで位置に依存しないKVの再利用を可能にする新しいアテンション機構であるLazyAttentionを紹介する。
論文 参考訳(メタデータ) (2026-06-03T00:12:22Z) - Cluster-based Adaptive Retrieval: Dynamic Context Selection for RAG Applications [8.946586077722822]
クラスタベースのAdaptive Retrieval (CAR) は、順序付きクエリ文書類似度距離のクラスタリングパターンを分析して、最適な文書数を決定するアルゴリズムである。
CARは、常に最適な検索深度を選択し、最高TESスコアを達成し、固定されたトップkベースラインを全て上回る。
論文 参考訳(メタデータ) (2025-10-02T05:11:12Z) - ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [50.93758649363798]
Impliretは、推論の課題をドキュメント側処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Long Document Ranking with Query-Directed Sparse Transformer [30.997237454078526]
我々は、変換器自己アテンションにおけるIR-アキシマティック構造を誘導するクエリ指向スパースアテンションを設計する。
我々のモデルであるQDS-Transformerは、ランク付けにおいて望ましい原則特性を強制する。
1つの完全に教師されたTREC文書ランキングベンチマークと3つの数ショットのTREC文書ベンチマークの実験は、QDS-Transformerの一貫性と堅牢性を示している。
論文 参考訳(メタデータ) (2020-10-23T21:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。