論文の概要: CrossPool: Efficient Multi-LLM Serving for Cold MoE Models through KV-Cache and Weight Disaggregation
- arxiv url: http://arxiv.org/abs/2606.24506v1
- Date: Tue, 23 Jun 2026 12:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.943606
- Title: CrossPool: Efficient Multi-LLM Serving for Cold MoE Models through KV-Cache and Weight Disaggregation
- Title(参考訳): CrossPool: KVキャッシュと軽量デアグリゲーションによるコールドMoEモデルのための効率的なマルチLLMサービング
- Authors: Zhuoren Ye, Tianyu Wo, Dinghao Xue, Mingming Zhang, Yuchen Teng, Chunming Hu, Renyu Yang,
- Abstract要約: LLMサービスは、多くのスパースMoEモデルをホストするが、ほとんどのモデルはスパースリクエストを受け取り、冷たく保つ。
コールドモデルがピーク時のKVキャッシュの需要に達することは滅多にないため、モデル毎の最悪のKV容量を維持することはメモリを浪費する。
FFN重みとKVキャッシュを2つのGPUメモリプールに分離する冷蔵MoEモデルのサーブエンジンであるCrossPoolを紹介する。
- 参考スコア(独自算出の注目度): 16.650413149227038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging LLM services increasingly host many sparse MoE models, yet most models receive sparse requests and remain cold. This creates a GPU memory problem: model weights are stable and model-determined, while KV-cache is transient and demand-determined. Because cold models rarely reach peak KV-cache demand at the same time, reserving worst-case KV capacity per model wastes memory; a shared KV-cache pool can instead provision aggregate active demand. However, KV-cache sharing is not sufficient when weights and KV-cache remain in a monolithic GPU memory pool. Static weights compete with dynamic KV-cache, and KV-head-limited attention under cold, low-concurrency traffic exposes only a fraction of replicated KV capacity, leading to low GPU memory utilization and weak long-context support. We present CrossPool, a serving engine for cold MoE models that separates FFN weights and KV-cache into two GPU memory pools: a weights pool that consolidates FFN weights across cold models, and a KV-cache pool that dynamically serves active requests while keeping attention local to KV-cache. CrossPool combines a KV-cache planner and virtualizer, a layer-wise pipeline scheduler that hides hidden-state transfers, and persistent kernels with control lowering to reduce CPU-GPU control overhead. With efficient GPU memory pooling, CrossPool underpins bursty long-context requests and outperforms the state-of-the-art kvcached-based multi-LLM serving system, reducing P99 TBT by up to $10.4\times$.
- Abstract(参考訳): 新興LLMサービスは、多くのスパースMoEモデルをホストするが、ほとんどのモデルはスパースリクエストを受け取り、冷たく保つ。
モデルウェイトは安定してモデル決定され、KV-cacheは過渡的で需要決定される。
コールドモデルがピーク時のKVキャッシュ需要に達することは滅多にないため、モデル毎の最悪のKV容量を維持することはメモリを浪費する。
しかし、ウェイトとKVキャッシュがモノリシックなGPUメモリプールに留まっている場合、KVキャッシュの共有は不十分である。
静的重みは動的KVキャッシュと競合し、低温で低コンカレンシーなトラフィック下でKVヘッドに制限された注意は、複製されたKV容量のごく一部しか露呈せず、GPUメモリ使用率の低下と長期サポートの低さにつながる。
コールドMoEモデルのサーブエンジンであるCrossPoolは、FFN重みとKV-cacheを2つのGPUメモリプールに分割する。
CrossPoolは、KV-cacheプランナと仮想化、隠された状態転送を隠蔽するレイヤワイドパイプラインスケジューラ、CPU-GPU制御オーバーヘッドを低減するためにコントロールの低下を伴う永続カーネルを組み合わせたものだ。
効率的なGPUメモリプーリングにより、CrossPoolはバーストな長文リクエストをアンダーピン化し、最先端のkvcachedベースのマルチLLMサービスシステムより優れ、P99 TBTを最大10.4\times$に下げる。
関連論文リスト
- RedKnot: Efficient Long-Context LLM Serving with Head-Aware KV Reuse and SegPagedAttention [20.633983983180812]
LLMサービスのためのヘッドアウェアKVキャッシュ管理システムであるRedKnotを提案する。
RedKnotは、KVヘッドに沿ってKVキャッシュを分解することで、従来のモノリシックなKVキャッシュの抽象化を破る。
論文 参考訳(メタデータ) (2026-06-04T14:57:07Z) - Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。
我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文 参考訳(メタデータ) (2025-12-11T15:40:36Z) - KV Cache Transform Coding for Compact Storage in LLM Inference [2.20003167536462]
KVTCは、KVキャッシュをコンパクトなオンGPUとオフGPUストレージに圧縮する軽量トランスフォーメーションコーダである。
KVキャッシュの冗長性を活用することで、KVTCは推論と長文の精度を維持しながら最大20$times$圧縮を達成する。
我々は、AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER、MATH-500を含むベンチマークで、Llama 3、Mistral NeMo、R1-Qwen 2.5モデルでKVTCをテストする。
論文 参考訳(メタデータ) (2025-11-03T18:20:35Z) - HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。
我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。
また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文 参考訳(メタデータ) (2025-07-26T06:43:14Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。