論文の概要: Characterizing Software Aging in GPU-Based LLM Serving Systems
- arxiv url: http://arxiv.org/abs/2606.11916v1
- Date: Wed, 10 Jun 2026 10:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.420018
- Title: Characterizing Software Aging in GPU-Based LLM Serving Systems
- Title(参考訳): GPUベースのLLMサービングシステムにおけるソフトウェア老化の特徴
- Authors: Domenico Cotroneo, Bojan Cukic,
- Abstract要約: 本稿では,GPU ベースの LLM サービスシステムにおいて,ソフトウェア老化を研究するための実証手法を提案する。
同一のストレス条件下で、6つの共同配置で216時間のキャンペーンを実施。
以上の結果から,すべてのデプロイメントにおけるメモリ老化は統計的に有意であり,リーク率はサービスおよびデプロイメント構成に大きく依存することがわかった。
- 参考スコア(独自算出の注目度): 3.2117529539472716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an empirical methodology to study software aging in GPU-based LLM serving systems. Traditional aging studies focus on CPU-centric software with relatively regular workloads; LLM serving is different, spanning a Python host and a CUDA device, handling requests whose cost varies by orders of magnitude, and relying on rapidly evolving software stacks. We run a 216-hour campaign across six co-located deployments under identical stress conditions, monitor host, device, and client metrics in parallel, and apply a statistical pipeline that accounts for autocorrelation and multiple testing. Our results reveal statistically significant memory aging in all deployments, with leak rates strongly dependent on the serving runtime and deployment configuration. Beyond these findings, we provide a reproducible framework that opens a research direction at the intersection of the software aging and rejuvenation and LLM serving communities.
- Abstract(参考訳): 本稿では,GPU ベースの LLM サービスシステムにおいて,ソフトウェア老化を研究するための実証手法を提案する。
LLMは、PythonホストとCUDAデバイスにまたがり、コストが桁違いに変化する要求を処理するとともに、急速に進化するソフトウェアスタックに依存している。
同一のストレス条件下で6つの共同配置で216時間のキャンペーンを実行し、ホスト、デバイス、クライアントメトリクスを並列に監視し、自動相関と複数テストのための統計パイプラインを適用します。
以上の結果から,すべてのデプロイメントにおいて,統計的に重要なメモリ老化が明らかとなり,リーク率はサービス実行時とデプロイメント設定に強く依存することがわかった。
これらの発見の他に、ソフトウェア老朽化・再生とLCMサービスコミュニティの交差点に研究の方向性を開く再現可能なフレームワークを提供する。
関連論文リスト
- Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - An LLVM-Based Optimization Pipeline for SPDZ [0.0]
我々はSPDZプロトコルのための概念実証LLVMベースの最適化パイプラインを実装した。
フロントエンドは軽量なプライバシアノテーションを備えたCのサブセットを受け入れ、LLVM IRに格下げします。
我々のバックエンドは、最適化されたIR上でデータフローと制御フローの分析を行い、ノンブロッキングランタイムスケジューラを駆動します。
論文 参考訳(メタデータ) (2025-12-11T20:53:35Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Investigating Software Aging in LLM-Generated Software Systems [2.241579575562525]
本稿では,Large Language Models (LLM) によるアプリケーションにおけるソフトウェア老化現象を実験的に検討する。
BoltプラットフォームとBaxbenchからの標準化されたプロンプトを使用して、4つのサービス指向アプリケーションを生成し、50時間の負荷テストを実施しました。
その結果, 進行記憶の増大, 応答時間の増加, 性能不安定など, ソフトウェア老化の顕著な証拠が示された。
論文 参考訳(メタデータ) (2025-10-28T08:50:24Z) - Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。
LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。
我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文 参考訳(メタデータ) (2025-07-29T03:08:31Z) - HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。
エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文 参考訳(メタデータ) (2025-06-12T06:48:33Z) - Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - TranSQL+: Serving Large Language Models with SQL on Low-Resource Hardware [16.47619754879028]
グラフを純粋なSQLクエリに変換して,リレーショナルデータベースで実行するテンプレートベースのコードジェネレータであるTran+を紹介した。
また、結合操作を改善するための行列列最適化(ROW2Seek)を提案する。
本稿では,低リソースハードウェア上での大規模言語モデルの実践環境として,リレーショナルデータベースに注目した。
論文 参考訳(メタデータ) (2025-02-05T01:36:40Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。