論文の概要: AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving
- arxiv url: http://arxiv.org/abs/2606.09613v1
- Date: Mon, 08 Jun 2026 15:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.378989
- Title: AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving
- Title(参考訳): AgentSERVESIM:マルチTurn LLMエージェント実行のためのハードウェア対応シミュレータ
- Authors: Rakibul Hasan Rajib, Mengxin Zheng, Qian Lou,
- Abstract要約: 本稿では,マルチターンLDMエージェントのハードウェア対応シミュレータである AgentSERVESIM を提案する。
AgentSERVESIMは,コモディティCPU上で完全に動作しながら,主要な性能指標に対して6%の誤差で実システム動作を再現することを示す。
- 参考スコア(独自算出の注目度): 16.735743806437487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn LLM agents interleave model calls with external tool invocations, shifting serving from stateless request processing to stateful program execution. Serving these workloads requires scheduling, KV-cache management, and routing policies that use program-level context, including turn dependencies, tool-induced gaps, and reusable KV state. Evaluating such policies directly on real systems is costly, since each design point may require dedicated accelerator time across arrival rates, model scales, serving-instance counts, and memory hierarchies. Simulation offers a scalable alternative, but existing LLM serving simulators target stateless request-level workloads and therefore omit the core dynamics of agent serving: multi-turn program execution, cross-turn cache locality, and KV-cache residency during tool gaps. We present AGENTSERVESIM, a hardware-aware simulator for multi-turn LLM agent serving. AGENTSERVESIM evaluates serving policies at program granularity through composable modules: a Program Orchestrator preserves program identity and turn order, a Tool Simulator materializes tool-induced gaps, a Session-Aware Router maintains program-to-instance affinity for cache-aware dispatch, and a KV Residency Model tracks policy-defined KV placement across HBM, host DRAM/CXL, and eviction. Across real serving deployments and hardware configurations, AGENTSERVESIM reproduces real-system behavior within 6% error across key performance metrics while running entirely on commodity CPUs. These results show that AGENTSERVESIM enables controlled, repeatable exploration of agent-serving policies without requiring exhaustive deployment on costly accelerators.
- Abstract(参考訳): マルチターンLDMエージェントは、モデルコールを外部ツール呼び出しとインターリーブし、ステートレスなリクエスト処理からステートフルなプログラム実行に移行する。
これらのワークロードを実現するには、スケジュール、KV-cache管理、プログラムレベルのコンテキストを使用するルーティングポリシが必要になる。
それぞれの設計ポイントは、到着率、モデルスケール、サービスインスタンス数、メモリ階層にまたがる専用の加速時間を必要とする可能性があるため、実際のシステム上でこれらのポリシーを直接評価することはコストがかかる。
シミュレーションはスケーラブルな代替手段を提供するが、既存のLCMサービスシミュレーターはステートレスな要求レベルのワークロードをターゲットにしているため、マルチターンプログラムの実行、クロスターンキャッシュのローカリティ、ツールギャップ中のKVキャッシュのレジデンスといったエージェントのコアダイナミクスを省略する。
本稿では,マルチターンLDMエージェントのハードウェア対応シミュレータである AgentSERVESIM を提案する。
プログラムオーケストレータはプログラムのアイデンティティと順番を保存し、ツールシミュレータはツールによって引き起こされるギャップを実体化し、Session-Aware Routerはキャッシュ対応ディスパッチのためのプログラムからインスタンスへの親和性を維持し、KV Residency ModelはHBM、ホストDRAM/CXL、エビクションをまたぐポリシー定義のKV配置を追跡する。
AgentSERVESIMは実際のデプロイとハードウェア構成全体にわたって、コモディティCPU上で完全に動作しながら、主要なパフォーマンスメトリクス間で6%のエラーで実際のシステム動作を再現する。
これらの結果から,エージェントサーベイシムはコストのかかるアクセラレーターへの徹底的な展開を必要とせず,エージェントサーベイポリシーの反復的探索を可能にすることが示唆された。
関連論文リスト
- $E^3$-Agent: An Executable and Evolving Agent for Resource Management of Edge Generative Inference [39.00570828094742]
E3$-Agentは、エッジ人工知能生成コンテンツ(AIGC)リソース管理のための進化的エージェントである。
Agentは実行時のフィードバックからオンラインで学び、未知の時間変化のサービスタイムマッピングに継続的に適応する。
論文 参考訳(メタデータ) (2026-05-21T12:32:43Z) - Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks [96.60530830276281]
RuleSafeは、スケーラブルなLLM支援シミュレーションフレームワーク上に構築された、新しいオペレーティングベンチマークである。
VQ-Memoryはベクトル量子化変分オートエンコーダを用いたコンパクトで構造化された時間表現である。
論文 参考訳(メタデータ) (2026-03-10T11:13:54Z) - RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform [49.43594274832262]
RepoLaunchは、依存関係を自動的に解決し、ソースコードをコンパイルし、任意のプログラミング言語やオペレーティングシステムにわたるリポジトリのテスト結果を抽出できる最初のエージェントである。
RepoLaunchは残りのステップを自動化し、スケーラブルなベンチマークとコーディングエージェントとLLMのトレーニングを可能にする。
論文 参考訳(メタデータ) (2026-03-05T10:15:13Z) - Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - ScaleSim: Serving Large-Scale Multi-Agent Simulation with Invocation Distance-Based Memory Management [11.653587206247053]
LLMベースのシミュレーションは、アプリケーションドメイン間でますます採用されているが、GPUメモリの圧力のために拡張が困難である。
大規模マルチエージェントシミュレーションのためのメモリ効率の良いLLMサービスシステムであるScaleSimを提案する。
論文 参考訳(メタデータ) (2026-01-29T09:52:16Z) - Astraea: A State-Aware Scheduling Engine for LLM-Powered Agents [12.884297990127985]
Astraeaは、最適化をローカルセグメントからグローバルリクエストライフサイクルに移行するように設計されたサービスエンジンである。
これは、リクエストの履歴状態と将来の予測を統合する、ステートアウェアで階層的なスケジューリングアルゴリズムを採用している。
Astraea は平均 JCT を基準法に比べて 25.5% 削減する。
論文 参考訳(メタデータ) (2025-12-16T06:55:10Z) - An LLVM-Based Optimization Pipeline for SPDZ [0.0]
我々はSPDZプロトコルのための概念実証LLVMベースの最適化パイプラインを実装した。
フロントエンドは軽量なプライバシアノテーションを備えたCのサブセットを受け入れ、LLVM IRに格下げします。
我々のバックエンドは、最適化されたIR上でデータフローと制御フローの分析を行い、ノンブロッキングランタイムスケジューラを駆動します。
論文 参考訳(メタデータ) (2025-12-11T20:53:35Z) - Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live [30.099614426825834]
Continuumは、マルチターンエージェントワークロードのジョブ完了時間を最適化するサービスシステムである。
エージェントのツールコール時間を予測することで、Continuumは全ターン数に基づいて、KVキャッシュをGPUメモリに選択的にピン留めする。
Llama-3.1 8B/70Bモデルを用いた実世界のエージェントワークロードに対する評価は、Continuumが平均ジョブ完了時間を大幅に改善することを示している。
論文 参考訳(メタデータ) (2025-11-04T03:43:05Z) - Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。