論文の概要: HERALD: High-Throughput Block Diffusion LLM Serving via CPU-GPU Cooperative KV Cache Retrieval
- arxiv url: http://arxiv.org/abs/2606.21633v1
- Date: Fri, 19 Jun 2026 17:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:23:50.871594
- Title: HERALD: High-Throughput Block Diffusion LLM Serving via CPU-GPU Cooperative KV Cache Retrieval
- Title(参考訳): HERALD: CPU-GPU協調KVキャッシュ検索による高速ブロック拡散LDMの実現
- Authors: Omin Kwon, Doyeon Kim, Jongseok Park, Seung Yul Lee, Ion Stoica, Jae W. Lee,
- Abstract要約: 拡散LDM(dLLM)は、フォワードパス毎に複数のトークンを生成することにより、自動回帰復号化によるGPU利用を改善する。
KVキャッシュは、コンテキストとともに線形に成長し、長いコンテキストでのスループットを制限する。
ブロックdLLMのためのKVオフロードシステムであるHERALDを提案する。
- 参考スコア(独自算出の注目度): 31.594043836825403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion LLMs (dLLMs) improve GPU utilization over autoregressive decoding by generating multiple tokens per forward pass, but their KV cache still grows linearly with context, limiting throughput at long contexts. KV cache offloading to host DRAM alleviates this memory pressure, but the limited PCIe bandwidth necessitates recalling only a sparse subset of KV entries. In block dLLMs, the relevant KV entries remain consistent across denoising steps within a block, enabling high-accuracy selection by identifying the top-k entries once and reusing them throughout all denoising steps. This property appears attractive for offloading as it amortizes the selection overhead across the entire block, but it requires exact attention over the full KV cache, which is too expensive under offloading. We present HERALD, a KV offloading system for block dLLMs that resolves this through two opportunities that reduce the required selection compute by a factor of the block size and enable selection to be overlapped with denoising. Across three block dLLMs and five long context tasks, HERALD achieves near-lossless accuracy at 5-10% KV budget and up to 1.59x lower per block latency and 2.47x higher throughput over GPU-only inference, with speedups growing with context length.
- Abstract(参考訳): 拡散LDM(dLLM)は、フォワードパス毎に複数のトークンを生成することで、自動回帰復号化によるGPU利用を改善するが、KVキャッシュはコンテキストとともに線形に成長し、長いコンテキストでスループットを制限する。
KVキャッシュのオフロードにより、ホストDRAMはこのメモリ圧力を緩和するが、限られたPCIe帯域幅はKVエントリのわずかなサブセットだけをリコールする必要がある。
ブロックdLLMでは、関連するKVエントリはブロック内のデノナイジングステップ間で一貫性を持ち、トップkエントリを一度特定し、すべてのデノナイジングステップでそれらを再利用することで、高い精度の選択を可能にする。
この特性は、ブロック全体の選択オーバーヘッドを損なうため、オフロードには魅力的に思えるが、オフロードでは高すぎる完全なKVキャッシュに対して、正確に注意を払う必要がある。
本稿では、ブロックdLLMのKVオフロードシステムであるHERALDについて、ブロックサイズの係数によって必要な選択計算を削減し、デノベーションと重なる選択を可能にする2つの機会を通して解決する。
3ブロックのdLLMと5つの長いコンテキストタスクの中で、HERALDは5-10%のKV予算でほぼロスレスの精度を達成し、ブロック毎のレイテンシが最大1.59倍、GPUのみの推論よりも2.47倍高いスループットを実現している。
関連論文リスト
- KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference [23.683284557561112]
我々は、GPUメモリ、ホストDRAM、SSDにまたがる総合的なマルチ層KVキャッシュ管理システムであるKVDriveを紹介する。
KVDriveは、キャッシュ配置、パイプラインスケジューリング、階層間の調整を共同でオーケストレーションするシステムの観点から、この問題に取り組む。
このシステムは精度を保ちながら最先端の作業に比べて最大1.74倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-05-18T08:54:16Z) - Prefix-Adaptive Block Diffusion for Efficient Document Recognition [52.15352911463151]
ブロック拡散モデル(BDM)は並列生成、フレキシブルな出力、KVキャッシュをサポートし、効率的な文書解析を約束する。
本稿では,前置詞から接尾辞への因果表記に代えて,ブロック内双方向化を代替するPrefix-Block Diffusion Model (PA-BDM)を提案する。
実験の結果、3B PA-BDMはいくつかのベンチマークで高い認識スコアを達成し、2.5B MinerU-Diffusionに対して推論スループットを71.6%向上した。
論文 参考訳(メタデータ) (2026-05-16T07:50:13Z) - CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection [13.937483869660648]
既存のスパースアテンションメソッドは、チャンクされたプリフィルに効率的に変換しない。
ブロック・ユニオンKV選択に基づくチャンクド・プレフィルアテンション機構であるCompactAttentionを提案する。
最大2.72$times$ attention speedup at 128K context length under chunked prefill。
論文 参考訳(メタデータ) (2026-05-16T06:47:41Z) - Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving [18.681651346752766]
動的スパースアテンションは、デコーディングステップ毎にKV状態の小さなクエリ依存サブセットだけにアクセスすることで緩和を約束する。
しかし実際には、これらのアルゴリズムによる貯蓄は、エンドツーエンドのシステムレベルのゲインにはほとんど変換されない。
本稿では,階層的なKVストレージで実行パイプラインを協調設計するスパースアテンション対応推論フレームワークSPINを提案する。
論文 参考訳(メタデータ) (2026-04-29T16:02:00Z) - LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models [49.93891888238178]
ブロックワイド拡散言語モデル(DLM)は任意の順序で複数のトークンを生成し、自動回帰復号パイプラインに代わる有望な代替手段を提供する。
異なるクエリが異なるプレフィックス位置を選択する場合、KVインフレーション問題により、DLM上では裸のスパースアテンションが失敗する。
キャッシュされたプレフィックスアテンション結果を安定したトークンに再利用し、アクティブトークンのみにスパースアテンションを適用するLOSA(Locality-aware Sparse Attention)を提案する。
論文 参考訳(メタデータ) (2026-04-13T20:53:51Z) - MAGE: All-[MASK] Block Already Knows Where to Look in Diffusion LLM [9.69241599043101]
ブロック拡散LDMは言語生成の次のパラダイムとして期待されているが、KVキャッシュの利用により、長期コンテキスト設定においてメモリアクセスが主要なボトルネックとなっている。
この研究は拡散をブロックする鍵となる機会を特定し、第1回All-[MASK]における注意は、重要なKVエントリと予算要件を確実に予測する。
MAGEはKV予算のごく一部でほぼロスレスの精度を達成し、最大3-4倍のエンドツーエンドのスピードアップを提供する。
軽量な微調整戦略は、[MASK]誘導パターンを最小限のコストで強化し、数時間のトレーニングしか必要としない。
論文 参考訳(メタデータ) (2026-02-15T16:07:51Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - NOSA: Native and Offloadable Sparse Attention [27.551376861663556]
我々は、KVキャッシュオフロードをサポートするために設計された訓練可能なスパースアテンションフレームワークであるNOSAを提案する。
我々はNOSAが復号スループットを最大2.3倍に向上させながら、ほぼロスレス性能を保っていることを示す。
論文 参考訳(メタデータ) (2025-10-15T14:33:16Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。