論文の概要: Enabling KV Caching of Shared Prefix for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2606.07571v1
- Date: Tue, 26 May 2026 05:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.734102
- Title: Enabling KV Caching of Shared Prefix for Diffusion Language Models
- Title(参考訳): 拡散言語モデルのための共有プレフィックスのKVキャッシング
- Authors: Younghun Go, Jaehoon Han, Changyong Shin, Chuk Yoo, Gyeongsik Yang,
- Abstract要約: 共有プレフィックスに対するキーバリュー(KV)キャッシュは、高スループットの大規模言語モデル(LLM)サービスに不可欠である。
拡散言語モデル(DLM)における共有プレフィックスのための最初のKVキャッシュ手法であるbicacheを提案する。
従来の精度崩壊のない手法と比較して,bicacheはサービススループットを36.3%~98.3%向上させることがわかった。
- 参考スコア(独自算出の注目度): 0.2740273306918099
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Key-value (KV) caching for shared prefixes is essential for high-throughput large language model (LLM) serving, but it faces critical challenges in emerging diffusion language models (DLMs). In DLMs, bidirectional attention means that updating any token dynamically alters the entire context and its corresponding KVs. Thus, existing caching techniques developed for LLMs, which assume that KVs remain invariant once computed, corrupt the shared prefix KVs. Our experiments show that applying these techniques to DLMs causes model accuracy to collapse to near zero. To unlock high-throughput DLM serving, we propose bidirectional prefix caching, bicache, the first KV caching technique for shared prefixes in DLMs. bicache is designed based on key observations from our comprehensive analysis: shared prefix KVs remain stable and reusable in shallow layers, while the depth of shallow layers depends on the fraction of shared prefix tokens in each request. Thus, bicache dynamically identifies a safe layer depth for reusing shared prefix KVs and eliminates redundant computation. Evaluations demonstrate that bicache significantly improves serving throughput by 36.3%-98.3% compared to existing techniques without accuracy collapse (only 0-1.8% difference).
- Abstract(参考訳): 共有プレフィックスに対するキーバリュー(KV)キャッシングは、高スループット大言語モデル(LLM)のサービスには不可欠であるが、新しい拡散言語モデル(DLM)では重要な課題に直面している。
DLMでは、双方向の注意は、任意のトークンの更新がコンテキスト全体とその対応するKVを動的に変更することを意味する。
したがって、LLM向けに既存のキャッシュ技術が開発され、KVは一度計算されると不変であると仮定して、共有プレフィックスKVを破損する。
実験により, これらの手法をDLMに適用すると, モデル精度がほぼゼロに崩壊することが示された。
高スループットDLM機能を実現するために,DLMにおける共有プレフィックスに対する最初のKVキャッシュ技術である双方向プレフィックスキャッシング(bicache)を提案する。
共有プレフィックスKVは、浅い層では安定して再利用可能なままであり、浅い層の深さは、リクエストごとに共有プレフィックストークンの分数に依存する。
このように、bicacheは共有プレフィックスKVを再利用するための安全な層深さを動的に識別し、冗長な計算を不要にする。
評価の結果、bicacheは既存の精度の崩壊のない技術と比較して、サービススループットを36.3%-98.3%改善している(差は0-1.8%)。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression [95.59657871147846]
我々は,ビデオLLMと高度なKVキャッシュの検索と圧縮をシームレスに行うフレームワークである textbfStreamKV を提案する。
公開StreamingVQAベンチマークの実験では、StreamKVが既存のオンラインビデオ-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2025-11-10T16:25:03Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse [30.48395228595732]
KVLinkは、大規模言語モデル(LLM)における効率的なキー値(KV)キャッシュ再利用のためのアプローチである。
KVLinkは、連結後のグローバルな位置と一致するように、推論時にKVキャッシュの位置埋め込みを調整することと、自己注意を回復するためにトレーニング可能な特別なトークンを使用することである。
7つのデータセットにわたる実験によると、KVLinkは最先端の手法よりも平均4%の精度で質問応答を改善する。
論文 参考訳(メタデータ) (2025-02-21T23:34:29Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。