論文の概要: CacheWeaver: Cache-Aware Evidence Ordering for Efficient Grounded RAG Inference
- arxiv url: http://arxiv.org/abs/2606.19667v1
- Date: Thu, 18 Jun 2026 00:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.590416
- Title: CacheWeaver: Cache-Aware Evidence Ordering for Efficient Grounded RAG Inference
- Title(参考訳): CacheWeaver: 効率的な基底RAG推論のためのキャッシュ対応エビデンスオーダ
- Authors: Kaizhen Tan, Rong Gu, Mingyuan Li,
- Abstract要約: vLLMのようなサービスエンジンのプリフィックスキャッシュは、リクエストが同じトークンプレフィックスを共有する場合にのみ、このコストを削減する。
キャッシュ対応エビデンスオーダの軽量なプロンプト層手法であるCacheWeaverを提案する。
- 参考スコア(独自算出の注目度): 4.3361375690943795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) improves factual grounding, but it also lengthens prompts and raises prefill cost. Prefix caching in serving engines such as vLLM reduces this cost only when requests share the same token prefix. In grounded generation, however, adjacent queries may retrieve overlapping evidence in different orders, so set overlap does not become reusable prefix overlap. We present CacheWeaver, a lightweight prompt-layer method for cache-aware evidence ordering. The method keeps a prefix tree over recently served evidence sequences and uses a greedy walk to place the most reusable prefix first, while leaving the serving engine and retrieved evidence set unchanged. Across three vLLM configurations, the method lowers median time-to-first-token (TTFT) by about 20-33 percent relative to retrieval-order prefix caching, without hurting answer quality in our QA tests. The greedy policy reaches 97.5 percent of the median TTFT gain from oracle ordering, indicating that most reusable prefix locality can be recovered by a simple scheduling layer between retrieval and inference.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、実際の接地を改善するが、プロンプトを延長し、プリフィルコストを上昇させる。
vLLMのようなサービスエンジンのプリフィックスキャッシュは、リクエストが同じトークンプレフィックスを共有する場合にのみ、このコストを削減する。
しかし、グラウンドドジェネレーションでは、隣接するクエリは異なる順序で重複するエビデンスを検索することができるため、セットオーバーラップは再利用可能なプレフィックスオーバーラップにはならない。
キャッシュ対応エビデンスオーダの軽量なプロンプト層手法であるCacheWeaverを提案する。
この方法は、最近提供されたエビデンスシーケンスの上にプレフィックスツリーを保持し、グリーディウォークを使用して最も再利用可能なプレフィックスを最初に配置し、サーブエンジンを残してエビデンスを復元する。
3つのvLLM構成で、この手法は、検索順序のプレフィックスキャッシュと比較して中央値のTTFTを約20~33%低下させ、QAテストの回答品質を損なわない。
欲求政策は、オラクル注文によるTTFTの中央値の97.5パーセントに達し、最も再利用可能な接頭辞の局所性は、検索と推論の間の単純なスケジューリング層によって回復可能であることを示す。
関連論文リスト
- Grounded Cache Routing for Retrieval-Augmented Generation: When Is It Safe to Reuse an Answer? [0.0]
我々は、4つの安価なゲートが同時に保持されている場合にのみキャッシュされた応答を許容するエビデンス検証キャッシュルータであるGroundedCacheを提案する。
我々は、ヒットレートだけでなく、キャッシュ安全性をストレステストする6段階のワークロードを構築し、オペレーター向けメトリックであるunsafe-served rate (USR)を導入する。
2つのデータセットと12,000の実LLM世代(Qwen2.5-7B-Instruct on vLLM with Automatic Prefix Caching)、GroundedCacheはUSRをすべてのHotpotQAシステムで0.0%、mtRAGドキュメントドリフトで1.5%まで駆動する。
論文 参考訳(メタデータ) (2026-05-26T16:50:02Z) - A Parametric Memory Head for Continual Generative Retrieval [52.66674234249913]
生成情報検索(GenIR)は、検索を単一のニューラルモデルに統合し、クエリから直接ドキュメント識別子(ドシデント)をデコードする。
逐次適応は、新たに追加された文書の検索を改善するが、以前のスライスの性能は著しく低下することを示す。
本稿では,モジュール型パラメトリックメモリヘッドで適応モデルを拡張するメモリのみの安定化ステージである,後適応メモリチューニング(PAMT)を提案する。
論文 参考訳(メタデータ) (2026-04-25T17:38:51Z) - Sparse Prefix Caching for Hybrid and Recurrent LLM Serving [0.7284556903703034]
重なり合う深さの分布の下で,スパースプレフィックスキャッシングをチェックポイント配置として定式化する。
リクエストが非自明なプレフィックスを共有する場合、実世界のデータ上で標準非対称性によって追跡されるフロンティアを一貫して改善することを示す。
正確な出力を保持し、リカレント計算自体を変更したり、新しいリカレント更新カーネルを必要としたりしない。
論文 参考訳(メタデータ) (2026-04-17T09:24:58Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。