論文の概要: Towards Scalable Customization and Deployment of Multi-Agent Systems for Enterprise Applications
- arxiv url: http://arxiv.org/abs/2606.18502v1
- Date: Tue, 16 Jun 2026 21:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.903874
- Title: Towards Scalable Customization and Deployment of Multi-Agent Systems for Enterprise Applications
- Title(参考訳): エンタープライズアプリケーションのためのマルチエージェントシステムのスケーラブルなカスタマイズとデプロイに向けて
- Authors: Paresh Dashore, Shreyas Kulkarni, Uttam Gurram, Nadia Bathaee, Kartik Balasubramaniam, Genta Indra Winata, Sambit Sahu, Shi-Xiong Zhang,
- Abstract要約: 大規模言語モデル(LLM)に基づくマルチエージェントシステムは,複雑な推論やタスク実行において高い性能を示す。
ドメイン固有のカスタマイズ要件と高いレイテンシと推論コストのため、運用デプロイメントは依然として困難である。
実環境におけるマルチエージェントシステムのカスタマイズと効率的なデプロイのための統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.38985855970578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based multi-agent systems demonstrate strong performance on complex reasoning and task execution, enabling broad enterprise applications. However, production deployment remains challenging due to domain-specific customization requirements and high latency and inference costs in agentic workflows. We propose a unified framework for customization and efficient deployment of multi-agent systems in real-world settings. The first stage, Agentic Model Customization, combines continual pretraining, supervised fine-tuning, and preference optimization to adapt a compact model to specialized domains while retaining strong agentic capabilities. The second stage, Inference Optimization, integrates speculative decoding and FP8 quantization with targeted calibration to enable cost-efficient serving with minimal quality loss. Across enterprise workloads, our framework enables rapid domain adaptation and achieves a 4.48x speedup in throughput while maintaining performance and improving robustness on long-tail scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのマルチエージェントシステムは、複雑な推論とタスク実行において強力な性能を示し、幅広いエンタープライズアプリケーションを可能にする。
しかし、ドメイン固有のカスタマイズ要件とエージェントワークフローにおける高いレイテンシと推論コストのため、本番デプロイメントは依然として困難である。
実環境におけるマルチエージェントシステムのカスタマイズと効率的なデプロイのための統合フレームワークを提案する。
エージェントモデルカスタマイズ(Agentic Model Customization)の第1段階は、継続事前訓練、教師付き微調整、選好最適化を組み合わせて、強力なエージェント能力を保ちながら、コンパクトモデルを特定のドメインに適応させる。
第2段階である推論最適化(Inference Optimization)では、投機的復号化とFP8量子化を目標キャリブレーションと統合し、最小品質の損失でコスト効率の高いサービスを実現する。
エンタープライズワークロード全体にわたって、当社のフレームワークはドメイン適応の迅速化とスループットの4.48倍の高速化を実現し、パフォーマンスの維持と長期シナリオの堅牢性の向上を実現しています。
関連論文リスト
- Meeting SLOs, Slashing Hours: Automated Enterprise LLM Optimization with OptiKIT [7.499397261133133]
分散LLM最適化フレームワークOptiKITを提案する。
非専門家チームのための複雑な最適化を自動化することで、モデル圧縮とチューニングを民主化します。
実運用では、2倍以上のGPUスループット向上を実現している。
論文 参考訳(メタデータ) (2026-01-28T09:13:17Z) - MALBO: Optimizing LLM-Based Multi-Agent Teams via Multi-Objective Bayesian Optimization [0.0]
この論文では、マルチエージェントAIチームの効率的な構成を自動化するように設計された、体系的なフレームワークであるMALBOを紹介している。
タスクの精度と推論コストの間の設定の前面を特定することを目的として,多目的最適化問題として代入課題を定式化する。
その結果、ベイズ最適化フェーズは、初期ランダム検索と比較して、平均構成コストを45%以上削減しつつ、同等な平均性能を維持した。
論文 参考訳(メタデータ) (2025-11-14T18:01:08Z) - Controlling Performance and Budget of a Centralized Multi-agent LLM System with Reinforcement Learning [53.57360296655208]
大規模言語モデル(LLM)は、ドメイン間で補完的な強みを示し、様々な推論コストが伴う。
既存のアプローチは分散化されたフレームワークに依存しており、入力毎に複数のLSMを呼び出すため、実質的で制御されていない推論コストが発生する。
我々は,LLMコントローラが,コスト効率とコスト制御が可能な方法で,専門家モデルのプールを選択的にコーディネートする,集中型マルチLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T17:35:17Z) - A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。
既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。
本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T03:59:51Z) - AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent [12.27790226999309]
本稿では,モバイルエージェントが現実的かつスケーラブルな影響をもたらすために解決すべき4つの中核的問題を特定する。
アプリケーション間で動作するマルチモーダル,マルチエージェント,汎用モバイルエージェントであるAppCopilotを提案する。
論文 参考訳(メタデータ) (2025-09-02T15:48:21Z) - LLM-guided Chemical Process Optimization with a Multi-Agent Approach [8.714038047141202]
本稿では,最小限のプロセス記述から動作制約を自律的に推論するマルチエージェントLLMフレームワークを提案する。
当社のAutoGenベースのフレームワークは、制約生成、パラメータ検証、シミュレーション、最適化ガイダンスのための特別なエージェントを備えたOpenAIのo3モデルを採用しています。
論文 参考訳(メタデータ) (2025-06-26T01:03:44Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - DNN-Powered MLOps Pipeline Optimization for Large Language Models: A Framework for Automated Deployment and Resource Management [0.0]
本研究では、Deep Neural Networks(DNN)を活用してMLOpsパイプラインをLarge Language Models(LLM)に最適化する新しいフレームワークを提案する。
当社のアプローチでは,最適なパフォーマンスとコスト効率を維持しつつ,デプロイメント決定やリソース割り当て,パイプライン最適化を自動化するインテリジェントシステムを導入しています。
論文 参考訳(メタデータ) (2025-01-14T14:15:32Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。