論文の概要: PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression
- arxiv url: http://arxiv.org/abs/2606.15157v1
- Date: Sat, 13 Jun 2026 07:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.953808
- Title: PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression
- Title(参考訳): PolyKV: KVキャッシュ圧縮のための不均一保持とアロケーション
- Authors: Chao Fei, Panos Kalnis,
- Abstract要約: KVキャッシュ圧縮は、長文大言語モデル推論のメモリコスト削減に不可欠である。
しかし、既存のアプローチは通常、1つの圧縮ポリシーとすべてのトランスフォーマー層に均一なキャッシュ予算を適用します。
提案するPolyKVは,メソッドの選択と予算配分を伴う設計空間を考慮した,階層的なKVキャッシュ最適化フレームワークである。
- 参考スコア(独自算出の注目度): 3.4959052391610044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV cache compression is essential for reducing the memory cost of long-context large language model inference. Existing approaches, however, typically apply a single compression policy and a uniform cache budget across all transformer layers. This uniform design ignores the fact that different layers can play different roles during prefill and decoding, and may therefore require different eviction strategies and cache capacities. We present PolyKV, a layer-wise KV cache optimization framework that considers design space with method selection and budget allocation. PolyKV routes each layer to a suitable KV compression policy based on layer-level signals, while assigning non-uniform budgets under a fixed total budget. This formulation enables heterogeneous compositions of existing KV cache methods. Experiments on LLaMA-3.1-8B and Qwen3-8B show that, under the same 512-token average KV budget, PolyKV recovers 54.5% and 25.7% of the LongBench performance gap between the strongest single-policy baseline and FullKV, respectively. Across 128-1024 budget sweep, PolyKV consistently improves over the strongest baseline by 1.7%-6.4%, corresponding to 40.0%-54.5% recovery of the FullKV gap.
- Abstract(参考訳): KVキャッシュ圧縮は、長文大言語モデル推論のメモリコスト削減に不可欠である。
しかし、既存のアプローチは通常、1つの圧縮ポリシーとすべてのトランスフォーマー層に均一なキャッシュ予算を適用します。
この一様設計は、プリフィルとデコードの間に異なるレイヤが異なる役割を演じることを無視し、したがって異なる消去戦略とキャッシュ容量を必要とするかもしれないという事実を無視している。
提案するPolyKVは,メソッドの選択と予算配分を伴う設計空間を考慮した,階層的なKVキャッシュ最適化フレームワークである。
PolyKVは、各層を層レベルの信号に基づいて適切なKV圧縮ポリシーにルーティングし、固定された全予算の下で一様でない予算を割り当てる。
この定式化により、既存のKVキャッシュ方式の異種合成が可能となる。
LLaMA-3.1-8BとQwen3-8Bの実験では、同じ512トンの平均KV予算の下で、PolyKVは最強の単一都市ベースラインとFullKVの間のロングベンチ性能ギャップの54.5%と25.7%を回復している。
128-1024の予算を網羅して、PolyKVは、FullKVギャップの40.0%-54.5%の回復に対応して、最強のベースラインを1.7%-6.4%改善している。
関連論文リスト
- HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference [23.016627145448467]
MLLM(Multimodal Large Language Models)は、テキスト、画像、ビデオに対する高度な統一推論である。
各ビジュアル入力は数千のトークンに拡張され、キャッシュはコンテキスト長と線形にスケールする。
一般的な解決策は、固定された予算の下で異なる粒度でキャッシュを圧縮することである。
相補的戦略を3段階に統合したハイブリッドKVキャッシュ圧縮フレームワークであるHybridKVを提案する。
論文 参考訳(メタデータ) (2026-04-07T13:51:07Z) - KVSculpt: KV Cache Compression as Distillation [7.085426079187912]
KVキャッシュ圧縮は、効率的なLLM推論に重要である。
既存のメソッドは、純粋な消去 -- どのKVペアを保持するかを選択する -- から、類似のペアをより少ないものに組み合わせたマージまで、さまざまです。
我々は、このスペクトルの反対側に移動するKVSculptを提案する。
鍵はL-BFGSで最適化され、最小二乗で閉形式で解かれる。
論文 参考訳(メタデータ) (2026-03-29T19:14:25Z) - EvolKV: Evolutionary KV Cache Compression for LLM Inference [16.100469422266045]
EvolKVは階層的にタスク駆動型のKVキャッシュ圧縮のための適応型フレームワークである。
EvolKVは、オリジナル予算の1.5%しか利用せず、完全なKVコード補完よりも優れたパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-09-10T06:32:49Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - ZigZagkv: Dynamic KV Cache Compression for Long-context Modeling based on Layer Uncertainty [35.947737679664016]
推論長が増加するにつれて、KVキャッシュの増加はメモリ外問題を引き起こす可能性がある。
本稿では,各層に予算規模を割り当てるために,層不確実性を利用した簡易かつ効果的なKVキャッシュ圧縮手法を提案する。
実験の結果,提案手法はフルKV推定と比較して,KVキャッシュのメモリ使用量を$sim$20%に削減できることがわかった。
論文 参考訳(メタデータ) (2024-12-12T07:52:56Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。