論文の概要: UltraQuant: 4-bit KV Caching for Context-Heavy Agents
- arxiv url: http://arxiv.org/abs/2606.20474v2
- Date: Fri, 19 Jun 2026 08:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.04053
- Title: UltraQuant: 4-bit KV Caching for Context-Heavy Agents
- Title(参考訳): UltraQuant:コンテキスト重エージェントのための4ビットKVキャッシング
- Authors: Inesh Chakrabarti, David Limpus, Aditi Ghai Rana, Bowen Bao, Spandan Tiwari, Thiago Crepaldi, Ashish Sirasao,
- Abstract要約: コンテキスト重エージェントはキー値(KV)キャッシュに異常な圧力を与える。
この設定のために,TurboQuantスタイルの回転とコードブック量子化を用いた4ビットKV-cache圧縮について検討した。
最適化されたデコードアテンションカーネルやUltraQuantを含むAMD GPU上でのサービス最適化を提案する。
- 参考スコア(独自算出の注目度): 2.0497179932020444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context-heavy agents place unusual pressure on the key-value (KV) cache: long prefixes are reused across many short turns, while concurrency determines whether the serving system can keep GPUs utilized. We study 4-bit KV-cache compression for this setting, using TurboQuant-style rotation and codebook quantization as a quality anchor and vLLM FP8 KV caching as the deployment anchor. We report three contributions. First, we frame 4-bit KV caching around multi-round agent workloads where task quality, cache residency, and serving throughput must be measured jointly. Second, we describe the practical design choices needed to make the 4-bit path robust, including asymmetric K/V treatment, Walsh-Hadamard rotation, QJL removal, and block-scale variants. Third, we present serving optimizations on AMD GPUs, including optimized decode-attention kernels and UltraQuant, an FP4 approximation path that uses FP8 queries, FP4 KV tensors, UE8M0 group scales, and native scaled-MFMA support on CDNA4. On a long-context, multi-turn agentic workload, UltraQuant cuts P50 time-to-first-token by 3.47x in the cache-pressured late rounds (2.3x across all rounds) and raises output throughput by 1.63x over the FP8 KV baseline.
- Abstract(参考訳): コンテキスト重エージェントはキー値(KV)キャッシュに異常な圧力をかける:長いプレフィックスは多くの短いターンで再利用される一方、並行処理システムはGPUを利用できるかどうかを判断する。
そこで我々は,TurboQuantスタイルのローテーションとコードブック量子化を品質アンカーとして,vLLM FP8 KVキャッシングを配置アンカーとして,4ビットKVキャッシュ圧縮について検討した。
私たちは3つの貢献を報告します。
まず、タスク品質、キャッシュ常駐性、サービススループットを共同で測定する必要があるマルチラウンドエージェントワークロードを中心に、4ビットKVキャッシュをフレーム化する。
次に,非対称なK/V処理,Walsh-Hadamard回転,QJL除去,ブロックスケールの変形など,4ビットパスを堅牢にするための実用的な設計選択について述べる。
第三に、最適化されたデコードアテンションカーネルとUltraQuant、FP8クエリを使用するFP4近似パス、FP4 KVテンソル、UE8M0グループスケール、CDNA4のネイティブスケールMFMAサポートなど、AMD GPU上での最適化を提供する。
長いコンテキストでマルチターンのエージェントのワークロードでは、UltraQuantはキャッシュ圧縮後期ラウンド(2.3倍)でP50を3.47倍に削減し、FP8 KVベースラインで出力スループットを1.63倍に向上させる。
関連論文リスト
- OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization [14.533966202649806]
そこで本研究では,アテンション・アウェアの共分散構造をオフラインで推定するUltra-low-bit KVキャッシュ量子化手法を提案する。
このようにして、KV量子化は、注意が実際に消費する共分散構造と整合する。
提案手法は,5つのタスクにまたがる最大32kトークンの推論トレースを用いて,最近の推論モデルを用いて評価する。
論文 参考訳(メタデータ) (2026-05-18T02:24:29Z) - SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving [42.268254679163725]
KV-cacheは、現実世界のLLMサービスにおける主要なボトルネックである。
多くのKV-cache圧縮法は実用的なサービス制約に違反している。
我々は、ページ化されたKV-cacheレイアウトに直接統合する融合回転量子化カーネルを実装した。
論文 参考訳(メタデータ) (2026-04-21T07:12:23Z) - KV Cache Transform Coding for Compact Storage in LLM Inference [2.20003167536462]
KVTCは、KVキャッシュをコンパクトなオンGPUとオフGPUストレージに圧縮する軽量トランスフォーメーションコーダである。
KVキャッシュの冗長性を活用することで、KVTCは推論と長文の精度を維持しながら最大20$times$圧縮を達成する。
我々は、AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER、MATH-500を含むベンチマークで、Llama 3、Mistral NeMo、R1-Qwen 2.5モデルでKVTCをテストする。
論文 参考訳(メタデータ) (2025-11-03T18:20:35Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。