論文の概要: BatchGen: An Architecture for Scalable and Efficient Batch Inference
- arxiv url: http://arxiv.org/abs/2606.21712v1
- Date: Fri, 19 Jun 2026 19:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 03:51:13.585928
- Title: BatchGen: An Architecture for Scalable and Efficient Batch Inference
- Title(参考訳): BatchGen: スケーラブルで効率的なバッチ推論のためのアーキテクチャ
- Authors: Tairan Xu, Leyang Xue, Zhan Lu, Jinfu Deng, Hongyang Xiao, Yinsicheng Jiang, Congjie He, Matej Sandor, Le Xu, Luo Mai,
- Abstract要約: バッチ推論はAI計算の中心的なモードとなっているが、既存の推論エンジンはまだインタラクティブなサービス用に設計された実行モデルに依存している。
バッチ推論のための新しいアーキテクチャ基盤であるシーケンス計算モデルを導入し、各シーケンスをきめ細かなイベント駆動シーケンスとして表現する。
このモデルは、ランタイムが動的に作業を再編成できるように表現力豊かなプリミティブを公開し、より大きなエキスパートレベルのバッチを可能にし、ストラグラーを緩和し、デバイス間での実際の作業を可能にし、コスト効率やメモリ制約のあるGPU上でも利用を維持する。
- 参考スコア(独自算出の注目度): 7.794394498151309
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Batch inference has become a central mode of AI computation, yet existing inference engines still rely on execution models designed for interactive serving. When scaled to millions of sequences, batch workloads reveal two fundamental requirements: the ability to handle extreme inter- and intra-sequence load variation that emerges only at runtime, and the ability to sustain high utilization across large fleets of GPUs. Existing systems fail to meet these requirements, losing substantial fractions of achievable throughput. We introduce a new architectural foundation for batch inference: the sequence coroutine compute model, which represents each sequence as a fine-grained, event-driven coroutine. This model exposes expressive primitives that allow the runtime to reorganize work dynamically, enabling larger expert-level batches, mitigating stragglers, reallocating work across devices, and maintaining utilization even on cost-effective or memory-constrained GPUs. Building on this abstraction, we implement BatchGen, a production-ready system that uses the coroutine model at cluster scale. On a 128-GPU cluster, BatchGen reduces batch completion time by up to $2.3\times$, and on memory-constrained accelerators it outperforms the strongest offloading baseline by up to $9.6\times$. We will open-source BatchGen at https://github.com/batchgen-project/batchgen
- Abstract(参考訳): バッチ推論はAI計算の中心的なモードとなっているが、既存の推論エンジンはまだインタラクティブなサービス用に設計された実行モデルに依存している。
数百万のシーケンスにスケールすると、バッチワークロードは2つの基本的な要件を明らかにします。
既存のシステムはこれらの要件を満たすことができず、達成可能なスループットのかなりの部分を失う。
バッチ推論のための新しいアーキテクチャ基盤である、シーケンスコルーチン計算モデルを導入し、各シーケンスをきめ細かなイベント駆動コルーチンとして表現する。
このモデルは、ランタイムが動的に作業を再編成できるように表現力豊かなプリミティブを公開し、専門家レベルのバッチを拡大し、ストラグラーを緩和し、デバイス間での作業を再配置し、コスト効率やメモリ制約のあるGPU上でも利用を維持する。
この抽象化に基づいて、クラスタスケールでコルーチンモデルを使用するプロダクション対応システムであるBatchGenを実装します。
128-GPUクラスタでは、バッチ完了時間を最大2.3\times$に短縮し、メモリ制限されたアクセラレータでは、最大9.6\times$で最大のオフロードベースラインを上回っている。
私たちはBatchGenをhttps://github.com/batchgen-project/batchgenでオープンソース化します。
関連論文リスト
- MELINOE: Fine-Tuning Enables Memory-Efficient Inference for Mixture-of-Experts Models [13.907916161242794]
Mixture-of-Experts (MoE)モデルアーキテクチャはトークン当たりのアクティベートパラメータの数を著しく削減することができる。
彼らの全体的なパラメータ数とモデルサイズは、リソース制約された設定で広く使用されるのを妨げている。
MELINOE(MelinoE)は、MoEモデルを微調整し、より強く、配列ごとに少数の専門家を活性化する手法である。
論文 参考訳(メタデータ) (2026-01-30T14:40:18Z) - Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks [6.943057640797408]
Visual Perception Engine (VPEngine)は、開発者のアクセシビリティを維持しながら、視覚的マルチタスクのための効率的なGPU使用を可能にするために設計されたモジュラーフレームワークである。
我々のフレームワークアーキテクチャは、並列に実行される複数のタスク固有のモデルヘッド間で効率的に共有される画像表現を抽出する共有基盤モデルバックボーンを活用している。
実装例では、NVIDIA Jetson Orin AGX forRT最適化モデル上で、エンド・ツー・エンドのリアルタイム性能を$geq$50 Hzで示す。
論文 参考訳(メタデータ) (2025-08-15T16:42:23Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Efficient Strong Scaling Through Burst Parallel Training [13.656104138147967]
大規模なGPUクラスタを使用して、ディープニューラルネットワーク(DNN)モデルをトレーニングすることが、必須の要件になっています。
この効率問題に対処するシステムDeepPoolを2つの重要なアイデアで紹介する。
論文 参考訳(メタデータ) (2021-12-19T05:18:39Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。