論文の概要: AnchorKV: Safety-Aware KV Cache Compression via Soft Penalty with a Refusal Anchor
- arxiv url: http://arxiv.org/abs/2606.17872v1
- Date: Tue, 16 Jun 2026 12:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.435537
- Title: AnchorKV: Safety-Aware KV Cache Compression via Soft Penalty with a Refusal Anchor
- Title(参考訳): AnchorKV: ソフトペナルティによる安全対応KVキャッシュ圧縮
- Authors: Ning Ni, Yingjie Lao,
- Abstract要約: 大規模言語モデル(LLM)は、生成的推論や長いコンテキストタスクにおいて、以前のアーキテクチャよりも優れている。
その大きなサイズは、メモリ使用量、エネルギーコスト、デバイス上のデプロイメントにおいて大きな課題をもたらします。
有害なプロンプトに関連するキー空間の方向からトークン保持スコアをバイアスする,KVキャッシュ圧縮のドロップイン修正であるAnchorKVを提案する。
- 参考スコア(独自算出の注目度): 20.7510970936151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) outperform earlier architectures on generative inference and long-context tasks, but their large size introduces significant challenges in memory usage, energy cost, and on-device deployment. Since scaling pre-trained language models improves downstream capability \cite{zhao2023survey}, the key-value (KV) cache becomes a dominant inference bottleneck. Recent KV cache compression methods \cite{jo2025fastkv,li2024snapkv,zhou2024dynamickv} reduce this cost by retaining only a subset of attention-relevant tokens. However, while these approaches preserve accuracy on benign workloads, their compression policies either fail to defend against jailbreak attacks \cite{jiang2024robustkv} or degrade safety alignment under aggressive eviction. We propose AnchorKV, a drop-in modification to KV cache compression that biases token retention scores away from directions in key space associated with harmful prompts. AnchorKV constructs an offline safety anchor by adapting a difference-of-means representation engineering approach \cite{arditi2024refusal,zou2023representation} to the layer-specific key projection space used in KV caching. Based on this anchor, a soft penalty token selection rule trades a small amount of utility for substantially improved safety alignment, while reducing to the original compressor when the penalty is zero.
- Abstract(参考訳): 大きな言語モデル(LLM)は、生成的推論や長いコンテキストタスクにおいて、以前のアーキテクチャよりも優れているが、その大きなサイズは、メモリ使用量、エネルギーコスト、デバイス上のデプロイメントにおいて大きな課題をもたらす。
事前トレーニングされた言語モデルのスケーリングにより、ダウンストリーム機能である‘cite{zhao2023survey} が改善されるため、キー値(KV)キャッシュは主要な推論ボトルネックとなる。
最近のKVキャッシュ圧縮メソッド \cite{jo2025fastkv,li2024snapkv,zhou2024dynamickv} は、注意関連トークンのサブセットだけを保持することで、このコストを削減する。
しかしながら、これらのアプローチは、良質なワークロードの正確性を維持する一方で、その圧縮ポリシは、jailbreak攻撃に対する防御に失敗する{jiang2024robustkv}、あるいはアグレッシブな排除の下で安全性アライメントを低下させる。
有害なプロンプトに関連するキー空間の方向からトークン保持スコアをバイアスする,KVキャッシュ圧縮のドロップイン修正であるAnchorKVを提案する。
AnchorKVは、KVキャッシュで使用される層固有のキープロジェクション空間に、差分平均表現エンジニアリングアプローチ \cite{arditi2024refusal,zou2023representation} を適用することで、オフラインの安全アンカーを構築する。
このアンカーに基づいて、ソフトペナルティトークン選択規則は、ペナルティがゼロのときに元の圧縮機に還元しつつ、安全アライメントを大幅に改善するための少量のユーティリティを取引する。
関連論文リスト
- GRKV: Global Regression for Training-Free KV Cache Compression in Long-Context LLMs [97.36238579001544]
コンテキスト長が拡張された大規模言語モデル(LLM)は、キー値(KV)キャッシュに依存して、以前のトークンに対する注意をサポートする。
KVキャッシュを維持することは、KVキャッシュ圧縮メソッドを動機付け、かなりのメモリオーバーヘッドを引き起こす。
GRKVは,圧縮キャッシュとフルキャッシュのアテンション出力の差を直接最小化する,トレーニング不要なKV-cacheマージ手法である。
論文 参考訳(メタデータ) (2026-05-29T10:16:30Z) - KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction [20.53279247581787]
スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。
2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。
32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
論文 参考訳(メタデータ) (2025-12-01T03:59:20Z) - SWAN: Sparse Winnowed Attention for Reduced Inference Memory via Decompression-Free KV-Cache Compression [7.603859408568262]
大きな言語モデル(LLM)は、キーバリュー(KV)キャッシュの巨大なメモリフットプリントのため、自動回帰推論において重大なボトルネックに直面します。
SWANは、このオーバーヘッドをなくす、新しい、微調整不要なフレームワークである。
提案手法はオフライン行列を用いてKV-cacheを回転させプルークする。
論文 参考訳(メタデータ) (2025-11-24T09:41:24Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。