論文の概要: Alignment Collapse Under KV Cache Quantization: Diagnosis and Mitigation
- arxiv url: http://arxiv.org/abs/2606.09864v1
- Date: Mon, 01 Jun 2026 02:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.969251
- Title: Alignment Collapse Under KV Cache Quantization: Diagnosis and Mitigation
- Title(参考訳): KVキャッシュ量子化によるアライメント崩壊:診断と緩和
- Authors: Bruce Changlong Xu, Adarsh Kumarappan, Mu Zhou,
- Abstract要約: キー値(KV)キャッシュの量子化は、Large Language Model(LLM)推論メモリの削減に広く利用されている。
本研究では,KVキャッシュ量子化下でのアライメント保存について検討する。
低ビット量子化は安全アライメントを静かに破壊することができる。
- 参考スコア(独自算出の注目度): 6.129872931808218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key-value (KV) cache quantization is widely used to reduce Large Language Model (LLM) inference memory, yet existing evaluations solely focus on measuring perplexity and accuracy without assessing the safety impact. In this study, we explore alignment preservation under KV cache quantization. Across eleven instruction-tuned models (3.8B-72B) and five benchmarks (1,894 prompts), we find that low-bit quantization can silently destroy safety alignment: Mistral-7B loses 15.2% of its refusals at only 1.03x perplexity, and no universal safe bit-width exists, with sharp model-specific phase transitions invisible to standard metrics. We identify that the root cause is geometric: safety features occupy a low-dimensional activation subspace 10^2-10^3x more vulnerable to quantization noise than the full representation space perplexity averages over. Inspired by this observation, we propose Per-Channel Reduction (PCR), a diagnostic that classifies each model into one of three mechanistic failure modes: outlier-crushes-safety, where safety lives in non-outlier channels collaterally damaged by outlier-driven scale factors; outlier-as-safety, where safety overlaps outlier channels and finer granularity cannot rescue it; and multi-layer dilution, where safety is distributed across many layers and per-layer fixes fail. PCR predicts the correct mitigation direction on all nine primary models and one held-out model from an independent family using 20 calibration prompts. PCR generalizes across unseen prompts, models, and production quantizers, including KIVI with up to 97.2% recovery, succeeding where attention-based allocation methods fail. The resulting training-free protocol, requiring approximately 35 GPU-minutes, recovers up to 97% of lost alignment at minimal memory overhead, addressing vulnerabilities confirmed in production vLLM serving with FP8 KV cache on NVIDIA GPUs.
- Abstract(参考訳): キー値(KV)キャッシュの量子化は、Large Language Model(LLM)推論メモリの削減に広く用いられているが、既存の評価では、安全性への影響を評価することなく、パープレキシティと精度の計測にのみ焦点をあてている。
本研究では,KVキャッシュ量子化下でのアライメント保存について検討する。
11種類の命令チューニングモデル (3.8B-72B) と5つのベンチマーク (1,894 のプロンプト) で、低ビット量子化は安全アライメントを静かに破壊できることがわかった。
低次元のアクティベーション部分空間10^2-10^3xは、全表現空間のパープレキシティの平均よりも量子化ノイズに弱い。
そこで本研究では,各モデルを3つの機械的故障モードの1つに分類する診断法であるPer-Channel Reduction (PCR)を提案する。
PCRは、20種類のキャリブレーションプロンプトを用いて、9つのプライマリモデルと1つのホールドアウトモデルの正しい緩和方向を予測する。
PCRは、97.2%の回復率を持つKIVIを含む、目に見えないプロンプト、モデル、生産量計を一般化し、注意に基づく割り当て手法が失敗するところを成功させる。
トレーニング不要のプロトコルは、約35GPU分を必要とし、最大97%のアライメントを最小メモリオーバーヘッドで回復し、NVIDIA GPU上のFP8 KVキャッシュで機能する本番vLLMで確認された脆弱性に対処する。
関連論文リスト
- Runtime-Certified Bounded-Error Quantized Attention [0.0]
本稿では,実行時対応型KVキャッシュアーキテクチャを提案する。
二項誤差分解は、キー量子化および(ii)値再構成誤差から、(i)注目分布歪みに対するヘッド当たり、ステップ当たりのバウンダリが得られる。
PG-19、NIAH、RULERのベンチマークにおいて、このシステムは言語モデリングと検索タスクのためのノイズ内の密度の高いFP16 KV品質と一致している。
論文 参考訳(メタデータ) (2026-05-20T08:04:40Z) - Continual Calibration: Coverage Can Collapse Before Accuracy in Lifelong LLM Fine-Tuning [6.908972852063454]
不確実性信頼性は、トップ1のパフォーマンスよりも早く、より急激に低下する可能性がある。
逐次微調整モデル上での共形被覆と校正誤差を計測し,これを実証的に検討する。
タスク固有のバッファを保持し,タスク固有の整合しきい値に適合する軽量なポストホックプロシージャであるキャリブレーション・リプレイを提案する。
論文 参考訳(メタデータ) (2026-04-27T03:03:38Z) - The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference [2.954681536906518]
KVキャッシングは自己回帰変換器推論におけるユビキタス最適化である。
FP16 KVキャッシュ推論は基本的に再計算と等価ではないことを示す。
論文 参考訳(メタデータ) (2026-04-16T15:59:40Z) - Conformal Risk Control for Safety-Critical Wildfire Evacuation Mapping: A Comparative Study of Tabular, Spatial, and Graph-Based Models [0.0]
本研究は,山火事拡散予測へのCRC(Continual Risk Control)の初回適用について述べる。
標準閾値は真の火の広がりの7~72%しか捉えていないが、CRCはこの失敗を均一に排除している。
CRCのどちらのモデルも約95%の耐火性能を達成し、全ピクセルの15%しかフラグを付けていないため、LightGBMの4.2倍効率が良い。
論文 参考訳(メタデータ) (2026-03-20T21:05:13Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。