論文の概要: RKSC: Reasoning-Aware KV Cache Sharing and Confident Early Exit for Multi-Step LLM Inference
- arxiv url: http://arxiv.org/abs/2606.09937v1
- Date: Sun, 07 Jun 2026 21:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.066944
- Title: RKSC: Reasoning-Aware KV Cache Sharing and Confident Early Exit for Multi-Step LLM Inference
- Title(参考訳): RKSC:マルチステップLPM推論におけるKVキャッシュ共有と信頼早期実行
- Authors: Anirudh Sekar,
- Abstract要約: トレーニングフリー推論フレームワークであるRKSC(Reasoning-Aware KV Cache Sharing)を紹介する。
マルチブランチLPM推論パイプラインにおける2つの構造的冗長性を取り除く。
RKSCは、No-KVベースライン上での平均速度を3.008倍に向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce RKSC (Reasoning-Aware KV Cache Sharing), a training-free inference framework that eliminates two structural redundancies in multi-branch LLM reasoning pipelines. ASKS (Attention-Similarity KV Sharing) computes the prefix KV cache once and broadcasts it to all semantically similar branches via hidden-state cosine similarity, strictly generalising the token-exact prefix caching used by vLLM and SGLang. CGEE (Confidence-Gated Early Exit) applies two complementary exit mechanisms: (1) it skips the verification forward pass entirely when generation confidence is decisive across branches, and (2) it terminates the verification pass at an intermediate layer when per-layer entropy stabilises, using lightweight hooks on the transformer backbone. RSBCM (Reasoning-Selective Block Cache Manager) prevents unbounded cache growth via attention-weighted depth-priority eviction. Across five model families (7B-10B), four benchmarks, and 1,000 evaluated problems, RKSC achieves a mean speedup of 3.008x over the No-KV baseline (peak 3.990x), a 1.66x mean improvement over vLLM-equivalent prefix caching, with a CGEE-induced error rate of only 0.37% (6 errors out of 1,616 verify calls). No fine-tuning or architecture changes are required. Code is available at https://github.com/AnirudhSekar/RKSC.
- Abstract(参考訳): RKSC(Reasoning-Aware KV Cache Sharing)は,マルチブランチLLM推論パイプラインにおける2つの構造的冗長性を排除するトレーニングフリー推論フレームワークである。
ASKS(Attention-Similarity KV Sharing)は、プレフィックスKVキャッシュを一度計算し、隠された状態のコサイン類似性を介してすべての意味的に類似したブランチにブロードキャストする。
CGEE(Confidence-Gated Early Exit)は,(1)生成信頼度が分岐間で決定された場合に,検証前方通過を完全にスキップし,(2)層間エントロピー安定化時に中間層で検証パスを終了する。
RSBCM(Reasoning-Selective Block Cache Manager)は、注意重み付けされた深さ-優先度の排除によって、無制限のキャッシュ増加を防ぐ。
5つのモデルファミリ(7B-10B)、4つのベンチマーク、1000の評価問題のうち、RKSCはNo-KVベースライン(約3.990x)で平均3.008倍のスピードアップを達成する。
微調整やアーキテクチャの変更は必要ない。
コードはhttps://github.com/AnirudhSekar/RKSCで入手できる。
関連論文リスト
- Multi-Segment Attention: Enabling Efficient KV-Cache Management for Faster Large Language Model Serving [18.829614918483255]
AsymCacheは、LLM(Large Language Model)推論のための計算対応のKVキャッシュ管理システムである。
AsymCacheはTTFTを最大1.90-2.03x、TPOT(time-per-latency-token)を1.62-1.71xまで下げることを示した。
論文 参考訳(メタデータ) (2026-06-01T23:51:37Z) - OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization [14.533966202649806]
そこで本研究では,アテンション・アウェアの共分散構造をオフラインで推定するUltra-low-bit KVキャッシュ量子化手法を提案する。
このようにして、KV量子化は、注意が実際に消費する共分散構造と整合する。
提案手法は,5つのタスクにまたがる最大32kトークンの推論トレースを用いて,最近の推論モデルを用いて評価する。
論文 参考訳(メタデータ) (2026-05-18T02:24:29Z) - Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - RelayCaching: Accelerating LLM Collaboration via Decoding KV Cache Reuse [5.597099794399441]
RelayCachingはトレーニング不要な推論手法で、前のエージェントから復号フェーズKVキャッシュを直接再利用する。
RelayCachingは80%以上のKVキャッシュの再利用を実現し、TTFTを標準パイプラインと比較して最大4.7倍のコストで削減できることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:46:28Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - SparK: Query-Aware Unstructured Sparsity with Recoverable KV Cache Channel Pruning [33.149133156465474]
大規模言語モデルにおける長文推論は、KVキャッシュのボトルネックによってますます制限される。
チャネルレベルでKVをプルーニングすることで、非構造化空間を適用できる訓練不要なプラグアンドプレイ手法であるSPARKを提案する。
SPARKはチャネルレベルの冗長性を低減し、同じメモリ予算内で長いシーケンスの処理を可能にする。
論文 参考訳(メタデータ) (2025-08-21T03:48:28Z) - CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。
我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。
CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文 参考訳(メタデータ) (2025-03-16T12:49:44Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。