論文の概要: IntentKV: Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference
- arxiv url: http://arxiv.org/abs/2606.09916v1
- Date: Sat, 06 Jun 2026 15:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.043735
- Title: IntentKV: Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference
- Title(参考訳): IntentKV:エージェント推論のためのクロスTurn Intent-Aware KVキャッシュプルーニング
- Authors: Junjie Li, Jiong Lou, Jie Li,
- Abstract要約: マルチターンLLMエージェントはショートクエリを、ツールコール、検索結果、中間推論の長い軌跡に扇動する。
我々は,基地LLMを凍結状態に保つための学習KVプルーニングであるIntentKVを紹介する。
IntentKVは、厳しいKV予算の下では精度の低下がほとんどなく、未完成のフルキャッシュベースラインと一致します。
- 参考スコア(独自算出の注目度): 12.04455190856202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn LLM agents fan short queries into long trajectories of tool calls, search results, and intermediate reasoning. Both KV memory and KV read bandwidth grow by orders of magnitude across a single trajectory, making the key-value (KV) cache, not parameter compute, the dominant serving bottleneck for long-horizon agents. We introduce IntentKV, learned KV pruning that keeps the base LLM frozen. IntentKV maintains a session-level QueryMemory of cross-turn intent, scores live history tokens with a memory-attention rule, and adds a zero-initialized residual head with cross-attention over current-query K-vectors. To stay composable with prefix caches, eviction is a slot-map redirection: dropped positions route to a sentinel dead slot while surviving K/V rows, RoPE phases, and slot identities stay in place. IntentKV matches the no-pruning full-cache baseline with almost no accuracy drop under tight KV budgets: at an 8k KV budget, mean peak request tokens drop 23.9% on Qwen3-8B and 30.7% on Qwen2.5-14B. On the 100 longest BCP queries that all methods complete on Qwen2.5-14B, IntentKV-8k further cuts worst-case peak request tokens from 92.3k to 20.5k, a 77.8% reduction, and worst-case raw KV reads from 411M to 31M, a 92.6% reduction.
- Abstract(参考訳): マルチターンLLMエージェントはショートクエリを、ツールコール、検索結果、中間推論の長い軌跡に扇動する。
KVメモリとKVリードの帯域幅は1つのトラジェクトリで桁違いに増加し、キー値(KV)キャッシュはパラメータ計算ではなく、長い水平エージェントの最大のボトルネックとなる。
我々は,基地LLMを凍結状態に保つための学習KVプルーニングであるIntentKVを紹介する。
IntentKVは、クロスターンインテンションのセッションレベルのQueryMemoryを維持し、メモリアテンションルールでライブヒストリートークンをスコアし、現在のKベクタにクロスアテンションを持つゼロ初期化残基を追加する。
無効化はスロットマップのリダイレクトであり、生き残ったK/V行、RoPEフェーズ、スロットアイデンティティが残っている間、ポジショニングルートをセンチネルのデッドスロットに切り替える。
IntentKVは、8kKV予算ではピークリクエストトークンがQwen3-8Bで23.9%、Qwen2.5-14Bで30.7%減少する。
Qwen2.5-14Bで全てのメソッドが完了した100の長いBCPクエリにおいて、IntentKV-8kは最悪のピークリクエストトークンを92.3kから20.5kに減らし、77.8%減らし、最悪のKVは411Mから31Mに減らし92.6%減らした。
関連論文リスト
- CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM [8.82843279804122]
ステップごとのキャッシュ予算を選択するKVキャッシュマネージャであるConF-KVを紹介する。
トークンは、蓄積された注目質量と相対性の複合物によってランク付けされます。
75のVisualWebArenaタスクでは、全KV成功の95.3%をピークメモリの2.8倍に維持する。
論文 参考訳(メタデータ) (2026-05-24T00:15:34Z) - Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - ProphetKV: User-Query-Driven Selective Recomputation for Efficient KV Cache Reuse in Retrieval-Augmented Generation [22.835149054167122]
本稿では,RAGシナリオに対するユーザクエリ駆動型KVキャッシュ再利用手法であるProphet KVを提案する。
Prophet KVは、ユーザクエリに対するセマンティックな関連性に基づいてトークンを優先順位付けする。
以上の結果から, Prophet KVの完全補充精度は96%-101%であり,再計算率は20%に過ぎなかった。
論文 参考訳(メタデータ) (2026-01-31T09:53:31Z) - Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs? [79.58770714228983]
言語モデルは、書籍要約のようなタスクに対して、ますます長いコンテキストを扱う。
これによりキーバリュー(KV)キャッシュのメモリコストが増大する。
以前の多くの研究でKVをメモリから外す方法が提案されているが、そのアプローチは好ましい設定に適合している。
KVフットプリント*は、記憶中のKVエントリの量と寿命の両方を考慮し、統一された計量として提案する。
論文 参考訳(メタデータ) (2025-06-20T16:21:12Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.97434606840326]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。
コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。
本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文 参考訳(メタデータ) (2025-05-29T13:05:47Z) - KVShare: An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse [17.301289617498448]
マルチテナントシナリオ下で要求間でKVキャッシュを共有するKVキャッシュ管理モジュールを提案する。
KVShareはTTFTを最大9.39倍に削減し、完全なKV再計算に比べてスループットを1.2倍に向上させる。
KVShareはSOTA法に比べて精度が20.38%向上している。
論文 参考訳(メタデータ) (2025-03-17T16:43:35Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。