論文の概要: Load Testing for Machine Learning Model Serving Systems at Scale
- arxiv url: http://arxiv.org/abs/2606.22013v1
- Date: Sat, 20 Jun 2026 12:34:27 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 15:18:10.591689
- Title: Load Testing for Machine Learning Model Serving Systems at Scale
- Title(参考訳): 大規模システムにおける機械学習モデルの負荷テスト
- Authors: Amr S. Abdelfattah, Nakul Tirumalai, Indu Mohanan, Xiao Li, Pengchao Wang, Dinakar Dhurjati, Eric Sung,
- Abstract要約: 機械学習(ML)モデルの提供はGPUインフラストラクチャの主流の消費者となっているが、これらのシステムにおけるキャパシティプランニングは、いまだに好意的だ。
本稿では,MLサービスシステムの産業負荷試験フレームワークであるsysについて述べる。
- 参考スコア(独自算出の注目度): 3.2375553784320394
- License:
- Abstract: Machine learning (ML) model serving has become a dominant consumer of GPU infrastructure, yet capacity planning in these systems remains largely ad hoc. Under-provisioning leads to service-level objective (SLO) violations and production incidents, while over-provisioning results in substantial resource waste. This paper presents \sys, an industrial load testing framework for ML serving systems that systematically estimates serving capacity through an adaptive, feedback-driven search strategy. The approach leverages real-time performance signals, incorporating dampening, spike tolerance, and convergence detection to efficiently identify maximum sustainable throughput under SLO constraints. We evaluate \sys through a longitudinal analysis of 14 industrial case studies spanning four ML architecture classes: recommendation, ranking, vision, and NLP. This study demonstrates that systematic load testing leads to substantial improvements in GPU resource efficiency and operational reliability. Prior to adopting \sys, a significant fraction of model launches were under-provisioned, resulting in recurring incidents; these issues were substantially reduced after deployment. Our results show that ML-specific design decisions are critical to accurate capacity estimation: workload calibration using recorded traffic reduces estimation error from approximately 30\% to 2--6\%, while proper warmup handling yields a 22.2\% improvement in accuracy. Further analysis reveals key factors influencing prediction error, including model size and co-location effects. This paper distills six lessons and derive architectural guidelines for ML load testing, offering actionable insights for building reliable and efficient ML serving systems.
- Abstract(参考訳): 機械学習(ML)モデルの提供はGPUインフラストラクチャの主流の消費者となっているが、これらのシステムにおけるキャパシティプランニングは、いまだに好意的だ。
計画不足はサービスレベル目標(SLO)違反や生産インシデントにつながりますが、過剰計画の結果、かなりのリソース浪費が発生します。
本稿では,MLサービスシステムを対象とした産業負荷試験フレームワークであるShasysについて述べる。
このアプローチでは、減衰、スパイク耐性、収束検出を組み込んだリアルタイムパフォーマンス信号を活用して、SLO制約下での最大持続スループットを効率的に識別する。
MLアーキテクチャの4つのクラス(推薦、ランキング、ビジョン、NLP)にまたがる14の産業ケーススタディを縦断的に分析し、Shasysの評価を行った。
この研究は、系統的な負荷テストがGPUリソース効率と運用信頼性を大幅に向上させることを示した。
\sysを採用する前は、かなりの数のモデル打ち上げが計画されていたため、頻繁なインシデントが発生し、これらの問題は配備後に大幅に削減された。
記録トラフィックを用いたワークロードキャリブレーションは,推定誤差を約30%から2~66%に低減し,適切なウォームアップ処理では精度が22.26%向上する。
さらに分析した結果,モデルサイズやコロケーション効果など,予測誤差に影響を及ぼす重要な要因が明らかになった。
本稿では,ML負荷テストに関する6つの教訓とアーキテクチャガイドラインを抽出し,信頼性と効率的なMLサービスシステム構築のための実用的な洞察を提供する。
関連論文リスト
- On Predicting the Post-training Potential of Pre-trained LLMs [60.07459271263409]
本稿では,ポストトレーニング前のベースモデルの性能予測という,ポストトレーニング後の潜在能力を予測するための新しいタスクを紹介する。
本稿では,応答判別を活用することで,ベースモデルの生成ギャップを回避できる統一フレームワークであるRuDEを提案する。
実験では、トレーニング後のパフォーマンスと90%以上の相関を示す。
論文 参考訳(メタデータ) (2026-05-12T11:33:49Z) - Quantized Inference for OneRec-V2 [28.8042155916846]
我々は、FP8ポストトレーニング量子化フレームワークを開発し、最適化された推論基盤に統合する。
提案した共同最適化は、エンドツーエンドの推論遅延を49%削減し、スループットを92%向上させる。
これらの結果から,大規模言語モデルのパラダイムに向けてレコメンダシステムが進化するにつれて,大規模レコメンデーションワークロードにアルゴリズムレベルおよびシステムレベルの最適化技術が効果的に適応できることが示唆された。
論文 参考訳(メタデータ) (2026-03-12T03:13:08Z) - Robustness Evaluation of Machine Learning Models for Fault Classification and Localization In Power System Protection [5.539105299550525]
この研究は、電力系統保護における機械学習モデルの堅牢性を評価するための統一的なフレームワークを導入している。
高忠実性EMTシミュレーションは、センサの故障、サンプリングレートの低減、過渡的な通信損失などの現実的な劣化シナリオをモデル化するために用いられる。
その結果, FCはほとんどの劣化型では安定だが, 単相損失では約13%低下し, FLは全般的に感度が高く, 電圧損失は局所化誤差が150%以上増加した。
論文 参考訳(メタデータ) (2025-12-17T12:38:53Z) - Enhancing reliability in AI inference services: An empirical study on real production incidents [6.549475714716768]
本稿では,大規模言語モデル(LLM)推論インシデントに関する最初のプロバイダ間,実践ベースの分析手法を提案する。
我々は1年間の運用経験に基づく分類と方法論を開発し、156件の高重度事象を検証した。
本研究は,推論操作の系統的,経験的基礎解析が,大規模で信頼性が高く,コスト効率のよいLLMサービスを実現する方法を示す。
論文 参考訳(メタデータ) (2025-10-17T23:16:29Z) - Redundancy Analysis and Mitigation for Machine Learning-Based Process Monitoring of Additive Manufacturing [3.414636048610798]
過剰な冗長性は、機器コストの増加、モデル性能の損耗、高い計算要求をもたらす。
本稿では,MLに基づくAMプロセス監視における冗長性を定義し,それをサンプルレベル,特徴レベル,モデルレベルの冗長性に分類する。
データ登録やダウンスケール,モダリティ間の知識伝達,モデルプルーニングといった高度な手法を取り入れた,総合的マルチレベル冗長性緩和(MLRM)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-30T05:04:53Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Applying Fine-Tuned LLMs for Reducing Data Needs in Load Profile Analysis [9.679453060210978]
本稿では、負荷プロファイル解析におけるデータ要求を最小限に抑えるために、LLM(en: Fine-tuned Large Language Models)を利用する新しい手法を提案する。
2段階の微調整戦略が提案され、データ復元作業の欠如に対して事前訓練されたLLMを適用する。
BERT-PIN などの最先端モデルに匹敵する性能を達成し,その精度向上のための微調整モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-02T23:18:11Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。