論文の概要: Breaking the Ice: Analyzing Cold Start Latency in vLLM
- arxiv url: http://arxiv.org/abs/2606.07362v2
- Date: Wed, 10 Jun 2026 06:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.341953
- Title: Breaking the Ice: Analyzing Cold Start Latency in vLLM
- Title(参考訳): 氷を破る:vLLMの低温開始遅延の解析
- Authors: Huzaifa Shaaban Kabakibo, Animesh Trivedi, Lin Wang,
- Abstract要約: vLLMは多くの推論ワークロードにおいて、事実上の推論エンジンに進化した。
本稿では,vLLM起動遅延の詳細な性能特性について述べる。
ハードウェア構成に対するvLLM起動遅延を正確に予測する軽量な解析モデルを開発した。
- 参考スコア(独自算出の注目度): 3.0501972844045273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As scalable inference services become popular, the cold start latency of an inference engine becomes important. Today, vLLM has evolved into the de facto inference engine of choice for many inference workloads. Although popular, due to its complexity and rapid evolution, there has not been a systematic study of its startup latency. With major architectural innovations such as the V1 API and the introduction of torch.compile, this paper presents the first detailed performance characterization of vLLM startup latency. We break down the startup process into six foundational steps and demonstrate that it is predominantly CPU bound. Each step exhibits consistent and interpretable scaling trends with respect to model-level and system-level parameters, enabling fine-grained attribution of latency sources. Building on these insights, we develop a lightweight analytical model that accurately predicts vLLM startup latency for a given hardware configuration, providing actionable guidance for resource planning in large-scale inference environments. All benchmarking datasets, analysis tools, and prediction scripts are open sourced at https://github.com/upb-cn/vllm-startup-profiler.
- Abstract(参考訳): スケーラブルな推論サービスが普及するにつれて、推論エンジンのコールドスタートレイテンシが重要になる。
今日では、vLLMは多くの推論ワークロードにおいて、事実上の推論エンジンに進化している。
その複雑さと急速な進化のために人気があるが、スタートアップのレイテンシに関する体系的な研究は行われていない。
本稿では,V1 API や torch.compile などのアーキテクチャの革新によって,vLLM 起動遅延の詳細なパフォーマンス特性を示す。
スタートアッププロセスを6つの基本ステップに分割し、主にCPUバウンドであることを実証します。
各ステップは、モデルレベルとシステムレベルのパラメータに関する一貫性と解釈可能なスケーリングトレンドを示し、遅延源の微細な帰属を可能にする。
これらの知見に基づいて,ハードウェア構成のvLLM起動遅延を正確に予測し,大規模推論環境における資源計画のための実用的なガイダンスを提供する軽量解析モデルを構築した。
ベンチマークデータセット、分析ツール、予測スクリプトはすべてhttps://github.com/upb-cn/vllm-startup-knownrでオープンソース化されている。
関連論文リスト
- Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis [68.7701048879757]
EvoKernelは、カーネル合成のライフサイクルを自動化する自己進化型エージェントフレームワークである。
ステージ固有のQ値を学び、現在の目標への貢献に基づいて経験を優先する。
モデルの正しさを11.0%から83.0%に改善し、初期ドラフトよりも3.60倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:06Z) - BootSeer: Analyzing and Mitigating Initialization Bottlenecks in Large-Scale LLM Training [6.948144697969282]
大規模言語モデル(LLM)は現代のAIの基盤となり、自然言語処理のブレークスルーを加速し、画像、オーディオ、ビデオを含むマルチモーダルなジョブへと拡大している。
多くの計算ソフトウェアと同様に、通常の実行時のパフォーマンスと起動時のオーバーヘッドを区別することが重要である。
この作業は、トレーニングの起動オーバヘッドがますます重要になっている問題、すなわち、トレーニングジョブの実行開始までの遅延に重点を置いている。
論文 参考訳(メタデータ) (2025-07-16T20:32:33Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。