論文の概要: Still: Amortized KV Cache Compaction in a Single Forward Pass
- arxiv url: http://arxiv.org/abs/2606.07878v1
- Date: Fri, 05 Jun 2026 22:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.501379
- Title: Still: Amortized KV Cache Compaction in a Single Forward Pass
- Title(参考訳): KVキャッシュを1つのフォワードパスで圧縮する「Amortized KV」
- Authors: Charles O'Neill, Alex Sandomirsky, Harry Partridge, Mudith Jayasekara, Max Kirkby,
- Abstract要約: KVキャッシュは、長期の言語モデルのデプロイメントにおけるメモリボトルネックである。
単一のフォワードパスでコンパクトなキーと値を生成する冷凍ベースモデルに対して、一度トレーニングされた小さな層ごとのPerceiverであるStillを紹介する。
- 参考スコア(独自算出の注目度): 1.9331338820553994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The KV cache is the memory bottleneck of long-horizon language model deployment. Practically, a deployable compactor must be lightweight enough to call during inference, expressive enough to preserve context under constraint, and reusable across a trajectory. Existing compaction methods satisfy only part of this requirement: selection methods are lightweight but subset-bound, while synthesis methods are expressive but rely on per-context optimization. Here we introduce Still, a small per-layer Perceiver trained once against a frozen base model that produces compact keys and values in a single forward pass. On Qwen and Gemma models, Still occupies the favorable side of the speed--quality frontier across compression ratios from $8\times$ to $200\times$ and context lengths from $8$k to $128$k. On the long-context RULER grid, Still exceeds the strongest baseline by 8--22 points. The same compact cache also supports free-form summarization, preserving most of the full-context gain on HELMET and winning a pairwise LongBench summarization comparison against KV-Distill. Because compaction is a forward pass, Still can be applied iteratively, entering a long-horizon regime unavailable to per-context methods. We show that amortization makes long-context cache compaction tractable, and synthesis makes its compact state useful at extreme compression.
- Abstract(参考訳): KVキャッシュは、長期の言語モデルのデプロイメントにおけるメモリボトルネックである。
実際には、デプロイ可能なコンパクタは、推論中に呼び出すのに十分な軽量で、制約下でコンテキストを保存するのに十分な表現力を備え、軌道を越えて再利用可能なものでなければならない。
既存のコンパクト化法はこの要件の一部のみを満たす:選択法は軽量だがサブセットバウンドであり、合成法は表現的だがコンテキストごとの最適化に依存している。
これは、1つのフォワードパスでコンパクトなキーと値を生成する冷凍ベースモデルに対して一度トレーニングされた小さなレイヤごとのPerceiverである。
QwenとGemmaのモデルでは、圧縮比が8\times$から200\times$、コンテキスト長が8$kから128$kのスピードクオリティフロンティアの好ましい側面を占めている。
ロングコンテキストのRULERグリッドでは、最強のベースラインを8-22ポイント超える。
同じコンパクトキャッシュは自由形式の要約もサポートし、HELMETのフルコンテキストゲインの大部分を保存し、KV-Distillに対するLongBenchの要約比較に勝利する。
コンパクト化はフォワードパスであるため、Stillは反復的に適用することができ、コンテキストごとのメソッドでは利用できない長い水平状態に入る。
また,アモルティゼーションにより,長文キャッシュの圧縮が可能となり,合成によってその圧縮状態を極端に圧縮するのに有用であることを示す。
関連論文リスト
- End-to-End Context Compression at Scale [81.70601323130997]
長期コンテキスト言語モデル推論は、KVキャッシュがコンテキスト長とともに増加するにつれて、メモリによってボトルネックとなる。
KVキャッシュを圧縮する最近の技術は、モデル品質を著しく低下させるか、あるいはかなりの時間を要するか、1つの長いプロンプトを圧縮するために計算する。
既存のアプローチは、精度-効率のフロンティア上のKVキャッシュ圧縮と競合しない。
論文 参考訳(メタデータ) (2026-06-08T15:43:16Z) - KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference [9.84177443010824]
KV-Foldは、キー値(KV)キャッシュを列チャンク上の左折り重なりのアキュムレータとして扱う、トレーニング不要な長文推論プロトコルである。
各ステップで、モデルは蓄積されたキャッシュに条件付けられた次のチャンクを処理し、新しく生成されたキーと値を付加し、拡張されたキャッシュを前方に渡す。
Llama-3.1-8Bでは、16Kから128Kのトークンのコンテキストにまたがる152のトライアルで100%の正確なマッチ検索を実現し、単一の40GB GPUのメモリ制限内に留まっている。
論文 参考訳(メタデータ) (2026-05-12T17:53:47Z) - Kwai Summary Attention Technical Report [69.40814939510126]
長文の能力は、次世代の大規模言語モデルの最も重要な方向性の1つになっている。
標準ソフトマックスアテンションは、シーケンスの長さに関して2次時間複雑性を示す。
歴史的文脈を圧縮することでシーケンスモデリングコストを削減する新しいアテンションメカニズムであるKwai Summary Attention (KSA)を提案する。
論文 参考訳(メタデータ) (2026-04-27T12:59:53Z) - Fast KV Compaction via Attention Matching [36.70038515897491]
この研究は、注意マッチングによる潜在空間における高速な文脈コンパクト化のアプローチを記述する。
この定式化は自然に単純な部分プロブレムに分解され、その一部は効率的な閉形式解を持つ。
論文 参考訳(メタデータ) (2026-02-18T09:06:53Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - Compactor: Calibrated Query-Agnostic KV Cache Compression with Approximate Leverage Scores [37.41699761967978]
KVキャッシュは、しばしば現実世界のデプロイメントにおいて、主要なリソースボトルネックである。
パラメータフリーでクエリに依存しないKV圧縮戦略であるCompactorを提案する。
本研究では,コンパクタがLongbench上でのフルKV性能を実現するとともに,KVメモリの負荷を平均63%低減することを示す。
論文 参考訳(メタデータ) (2025-07-10T20:03:35Z) - KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。
KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。
ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文 参考訳(メタデータ) (2025-03-13T13:15:28Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。