論文の概要: MiniPIC: Flexible Position-Independent Caching in <100LOC
- arxiv url: http://arxiv.org/abs/2606.13126v1
- Date: Thu, 11 Jun 2026 09:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.711926
- Title: MiniPIC: Flexible Position-Independent Caching in <100LOC
- Title(参考訳): MiniPIC: <100LOCにおけるフレキシブルな位置独立キャッシング
- Authors: Nathan Ordonez, Thomas Parnell,
- Abstract要約: vLLMのようなキャッシングエンジンは、同じプレフィックスを別のリクエストで共有しなければ、KVエントリを再利用できない。
最小限かつフレキシブルで高速なVLLM設計であるMiniPIC(MiniPIC)を提案する。
インターリーブスケジューリングを備えたMiniPICは、ベースラインのvLLMを49%上回るプリフィルスループットを改善し、キャッシュされたタイム・ツー・ファーストのトーケンを最大2桁まで削減し、最悪のオーバヘッドの5.7%しか発生しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented and agentic workloads repeatedly prefill recurring predictable structured inputs (which we call "spans") such as documents and code files. Yet, prefix caching in engines such as vLLM cannot reuse their KV entries unless they share identical prefixes with another request, while Position-Independent Caching (PIC) implementations within production-grade inference servers typically either require substantial server code changes or keep KV state outside the server, incurring host-to-device transfer overhead. We present Minimalistic PIC (MiniPIC): a minimal, flexible and fast vLLM design built from two ingredients: positional-encoding-free KV cache and user-controlled cache-reuse primitives. MiniPIC stores unrotated K vectors in the KV cache, applies RoPE to K tiles inside attention using per-request logical positions, and exposes three user-facing and token-level primitives: block-aligned padding, span separator (SSep), and prompt depend (PDep), that modify hashing behavior and effective block-level causal attention structure. With fewer than 100 lines of core-engine changes plus a custom attention backend, these primitives are sufficient to realize multiple PIC methods, including Block-Attention, EPIC, and Prompt Cache, within the same running vLLM instance, while natively integrating with KV cache CPU offload implementations. On 2WikiMultihopQA, MiniPIC with interleaved scheduling improves prefill throughput by 49% over baseline vLLM, reduces cached-span time-to-first-token by up to two orders of magnitude, preserves the linear prefill scaling of uncached spans, and incurs only 5.7% worst-case overhead.
- Abstract(参考訳): 検索とエージェントによるワークロードは、ドキュメントやコードファイルなど、予測可能な構造化された入力("spans"と呼ばれる)を繰り返しプリフィルします。
しかし、vLLMのようなエンジンのプレフィックスキャッシュは、同じプレフィックスを別のリクエストと共有しない限り、KVエントリを再利用することはできない。
最小限でフレキシブルで高速なvLLM設計であり、位置エンコーディングのないKVキャッシュとユーザ制御のキャッシュ再利用プリミティブである。
MiniPICは、KVキャッシュに回転しないKベクトルを格納し、要求ごとの論理的位置を用いてKタイルにRoPEを適用し、ブロック整列パディング、スパンセパレータ(SSep)、プロンプトディバイス(PDep)という3つのユーザ向けおよびトークンレベルのプリミティブを公開し、ハッシュ動作と効果的なブロックレベルの因果的注意構造を変更する。
このプリミティブは100行未満のコアエンジン変更とカスタムアテンションバックエンドを備えており、KVキャッシュのCPUオフロード実装をネイティブに統合しながら、同じ実行中のvLLMインスタンス内でBlock-Attention、EPIC、Prompt Cacheを含む複数のPICメソッドを実現するのに十分である。
2WikiMultihopQAでは、インターリーブスケジューリングによるMiniPICは、ベースラインのvLLMよりも49%のプリフィルスループットを改善し、キャッシュされたタイム・ツー・ファーストのトーケンを最大2桁まで削減し、キャッシュされていないスパンの線形プリフィルスケーリングを保持し、最悪のオーバヘッドの5.7%しか発生しない。
関連論文リスト
- MEPIC: Memory Efficient Position Independent Caching for LLM Serving [16.99046229452175]
位置,要求,バッチ間でのチャンクKVの再利用を可能にするメモリ効率のよいシステムを提案する。
MePICはチャンクKVをページストレージにアライメントし、再計算をトークンレベルからブロックレベルにシフトする。
論文 参考訳(メタデータ) (2025-12-18T18:04:01Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。