論文の概要: KVEraser: Learning to Steer KV Cache for Efficient Localized Context Erasing
- arxiv url: http://arxiv.org/abs/2606.17034v1
- Date: Mon, 15 Jun 2026 17:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.134629
- Title: KVEraser: Learning to Steer KV Cache for Efficient Localized Context Erasing
- Title(参考訳): KVEraser: 効率的なローカライズされたコンテキスト消去のためのKVキャッシュのステアリング
- Authors: Mufei Li, Shikun Liu, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li,
- Abstract要約: KVEraserは、効率的な局所的コンテキスト消去のための学習されたKV-cache編集方法である。
KVEraserは、ドメイン内タスクのアセスメント後のパフォーマンスにおいて、完全再計算とほぼ一致していることを示す。
- 参考スコア(独自算出の注目度): 32.86656152626106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-hoc context erasing over the KV cache is challenging because a local edit has a global consequence: once a span has been processed, its influence propagates into the cached states of all subsequent tokens. This issue arises naturally in long-context LLM applications, where stale retrieved facts, incorrect tool observations, retracted user preferences, or harmful prompt injections may be identified only after prefill. Exact erasing must then recompute all tokens after the deleted span, making its computational cost depend on suffix length rather than erased-span length. We introduce KVEraser, a learned KV-cache editing method for efficient localized context erasing. Given a processed context and a span to remove, KVEraser replaces only the KV states of the erased interval with learned steering states while reusing the remaining cache unchanged. To learn a transferable erasing mechanism, we build a two-stage training pipeline: generic span-neighbor pre-training teaches the eraser to suppress the influence of the erased span, while task-specific fine-tuning adapts this capability to downstream scenarios. Experiments show that KVEraser nearly matches full recomputation in post-erasure performance on in-domain tasks across 1K--32K context lengths, while its latency increases by only 24% compared with a 17.6x increase for full recomputation. KVEraser also generalizes to unseen long-document QA tasks with harmful factual distractors, achieving the best performance among approximate baselines with a 3--4x speedup over full recomputation.
- Abstract(参考訳): KVキャッシュに対するポストホックなコンテキスト消去は、局所的な編集がグローバルな結果をもたらすため、困難である。
この問題は、保存された事実、不正なツールの観察、削除されたユーザの好み、あるいは有害なプロンプトインジェクションがプリフィル後にのみ識別されるような、長いコンテキストのLLMアプリケーションで自然に発生する。
正確な消去は、削除されたスパンの後に全てのトークンを再計算し、その計算コストは消されたスパンの長さよりも接尾辞の長さに依存する。
そこで我々は,KVEraserという学習型KV-cache編集手法を紹介した。
処理されたコンテキストと削除するスパンが与えられた場合、KVEraserは消去された間隔のKV状態のみを学習されたステアリング状態に置き換え、残りのキャッシュを再利用する。
ジェネリックスパン隣のプレトレーニングは、消去されたスパンの影響を抑えるために消しゴムを教えるが、タスク固有の微調整は、この能力を下流のシナリオに適応させる。
実験の結果、KVEraserは1K-32Kコンテキスト長にわたるドメイン内タスクのアセスメント後の完全な再計算性能とほぼ一致しているが、完全な再計算の17.6倍のレイテンシはわずか24%増加した。
KVEraserはまた、有害なファクト・トラクタを持つ長期文書QAタスクを一般化し、完全な再計算よりも3-4倍のスピードアップで近似ベースライン間で最高のパフォーマンスを達成する。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Sparse Attention across Multiple-context KV Cache [8.236266965773465]
推論効率を改善するために、履歴キーバリュー(KV)キャッシュを再利用することは、主流のアプローチとなっている。
近年の進歩は、KVキャッシュを選択できるスパースアテンション機構によってスループットをさらに向上させる。
本論文では,マルチコンテキストKVキャッシュにおける注意スペーシフィケーションの最初の調査であるSamKVについて述べる。
論文 参考訳(メタデータ) (2025-08-06T02:53:14Z) - Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。
本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。
数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文 参考訳(メタデータ) (2025-06-04T16:01:48Z) - Efficient Pretraining Length Scaling [21.4715211093876]
本稿では,事前学習時に効率よく長さのスケーリングを可能にする新しいフレームワークであるParallel Hidden Decoding Transformer(textitPHD-Transformer)を提案する。
textitPHD-Transformerは、オリジナルのトークンと隠された復号トークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現している。
論文 参考訳(メタデータ) (2025-04-21T09:41:26Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。