論文の概要: Can I Buy Your KV Cache?
- arxiv url: http://arxiv.org/abs/2606.13361v1
- Date: Thu, 11 Jun 2026 13:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.829081
- Title: Can I Buy Your KV Cache?
- Title(参考訳): KVキャッシュは買えますか?
- Authors: Luoyuan Zhang,
- Abstract要約: 私たちは、ほとんど攻撃的に単純である提案を作成します。
発行者がドキュメントのKVキャッシュをプリコンパイルし、他のすべてのエージェントがそれをロードしてプリフィルをスキップする権利を購入させる。
Qwen3-4Bでは、再利用はプリフィルよりも9-50倍安い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Right now, across the world, AI agents are repeating the same absurd act: to read one document, they each recompute it from scratch. Every agent re-runs prefill, the most compute-intensive step a large model takes, over identical text, only to rebuild a key-value (KV) cache identical to the one the agent before it just built. The same answer, computed a million times. We make a proposal that is almost offensively simple: compute it once. Let a publisher precompute a document's KV cache, and let every other agent buy the right to load it and skip prefill. It works, and it is token-exact: loading a precomputed KV and continuing matches prefilling from scratch (24/24 greedy tokens, and at the logits level), with no accuracy cost. On Qwen3-4B, reuse is 9-50x cheaper in compute than prefill, and the gap widens with length (prefill's attention scales with L^2), so a single reuse already pays it back. Then the part that matters: where the KV lives. Shipping it fails, because KV is nearly incompressible, so per-load egress costs more than the prefill it saves. Hosting it provider-side, exactly as production prompt-caching works, removes egress entirely. The size of the prize is set by our measured compute saving: serving one hot 3774-token document to 80M agents costs ~$1.5M to re-prefill but only ~$0.03M of reuse compute (49.7x less). The 0.1x cache-read tariff APIs charge passes a 10x discount to users while sitting inside this measured envelope, so the 10x is a floor that the measured ~50x compute saving clears, and the gap to the physical ~50x is provider margin: millions of dollars per popular document. We frame the resulting agent-native prefill CDN and leave lossless KV compression and a cross-party payment layer as the open problems.
- Abstract(参考訳): 現在、世界中のAIエージェントが、同じ不条理な行為を繰り返している。
すべてのエージェントがプリフィルを再実行し、大きなモデルが同じテキストを超える最も計算集約的なステップは、エージェントが構築したばかりのものと同一のキー値(KV)キャッシュを再構築することです。
同じ答えが100万回計算された。
私たちは、ほとんど攻撃的に単純である提案を作成します。
発行者がドキュメントのKVキャッシュをプリコンパイルし、他のすべてのエージェントがそれをロードしてプリフィルをスキップする権利を購入させる。
プリコンパイルされたKVをロードし、スクラッチからプレフィルする(24/24のグレディトークンとロジットレベルで)。
Qwen3-4Bでは、再利用はプリフィルよりも9-50倍安くなり、ギャップは長さ(プリフィルの注意はL^2)で拡大するので、単一の再利用で既に返済できる。
そして重要なのは、KVがどこに住んでいるかだ。
KVは圧縮不能に近いため,ロード毎のエグレスコストは,保存するプリフィルよりも高いため,出荷は失敗する。
運用プロンプトキャッシュが動作するように、プロバイダ側でホストすることで、エクスレスを完全に取り除くことができる。
1つのホットな3774の文書を8000万のエージェントに提供し、再処理には$1.5Mかかるが、再利用計算には$0.03M(49.7倍)しかかからない。
0.1倍のキャッシュ読み取り関税API料金は、この測定された封筒の中に座っている間、ユーザに10倍の割引を渡します。
得られたエージェントネイティブプリフィルCDNをフレーム化し、損失のないKV圧縮とサードパーティ支払い層をオープンな問題として残す。
関連論文リスト
- Learning What to Write: Write-Gated KV for Efficient Long-Context Inference [10.915483460983411]
我々は,KVキャッシュ管理を3つのプリミティブの因果系として定式化した。
我々は、キャッシュに入る前にトークンユーティリティを予測する軽量メカニズムであるWrite-Gated KVを介してKVAdmissionをインスタンス化する。
論文 参考訳(メタデータ) (2025-12-19T11:08:58Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - LagKV: Lag-Relative Information of the KV Cache Tells Which Tokens Are Important [13.45388421871017]
LagKVはKVの圧縮戦略であり、KV自体の直接の前方比較にのみ依存する。
メインストリーム推論プラットフォームに簡単に統合できる、完全に注意を払わないメソッドです。
我々の手法は、同じ圧縮比で、注意重みベースのメソッドであるHO$を50ドル以上で上回ります。
論文 参考訳(メタデータ) (2025-04-07T03:22:15Z) - FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation [14.33163594016033]
大規模言語モデル(LLM)は、かなりのプリフィル計算とキー値(KV)キャッシュを必要とする。
KVキャッシュをプレフィルアクセラレーションで圧縮する最近の作業は、このコストを低減しているが、誤ってプリフィル計算の削減をデコードKV予算に結び付ける。
FastKVはKVキャッシュ圧縮フレームワークで、プリフィルとデコードの両方の遅延を減らし、後のレイヤでのトークンの重要性の安定化を活用する。
論文 参考訳(メタデータ) (2025-02-03T05:25:09Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。