論文の概要: FMplex: Model Virtualization for Serving Extensible Foundation Models
- arxiv url: http://arxiv.org/abs/2606.09643v1
- Date: Mon, 08 Jun 2026 15:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.467561
- Title: FMplex: Model Virtualization for Serving Extensible Foundation Models
- Title(参考訳): FMplex: 拡張可能な基盤モデルを実現するためのモデル仮想化
- Authors: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy,
- Abstract要約: 既存のモデル保存システムは、それぞれのカスタマイズされたタスクを独立したモデルとしてデプロイする。
FMplexは、タスク固有の拡張を保持しながら、独自にカスタマイズされたタスクがバックボーンを共有することを可能にする。
7つのFMバックボーンと92のダウンストリームタスクにまたがって、FMplexは最高のコロケーションよりも遅延を80%削減する。
- 参考スコア(独自算出の注目度): 2.5151309501683454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models (FMs) are increasingly used as backbones for downstream tasks across language, vision, time-series, and multimodal applications. Yet existing model-serving systems deploy each customized task as an independent model instance, thereby replicating heavyweight backbones, wasting accelerator memory, and losing opportunities to amortize batching and loading costs. This paper presents FMplex, a serving system that treats FM backbones as a virtualization substrate for deployment sharing. FMplex presents each task with a virtual foundation model (vFM), a logically private FM instance backed by a shared physical FM. This abstraction lets independently customized tasks share a backbone while preserving task-specific extensions, independent lifecycles, and task-level isolation. In addition, we propose a batch-aware fair-queueing scheduler that combines weighted task-level sharing with inter- and intra-task batching across colocated tasks. We implement a FMplex-based serving stack spanning task construction, sharing-aware deployment, and runtime execution. Across 7 FM backbones (16 variants) and 92 downstream tasks, FMplex reduces latency by up to 80% over spatial partitioning and 33.3% over best-effort co-location, while hosting up to 6x more tasks at cluster scale.
- Abstract(参考訳): ファンデーションモデル(FM)は、言語、ビジョン、時系列、マルチモーダルアプリケーションにわたる下流タスクのバックボーンとして、ますます使われている。
しかし、既存のモデル提供システムは、各カスタマイズされたタスクを独立したモデルインスタンスとしてデプロイすることで、重厚なバックボーンを複製し、アクセラレータメモリを浪費し、バッチ処理とロードコストを償却する機会を失う。
本稿では、FMバックボーンをデプロイ共有のための仮想化基板として扱うサービスシステムFMplexについて述べる。
FMplexは仮想ファンデーションモデル(vFM)で各タスクを提示する。
この抽象化により、独立にカスタマイズされたタスクは、タスク固有の拡張、独立したライフサイクル、タスクレベルの分離を保持しながら、バックボーンを共有することができる。
さらに,重み付きタスクレベルの共有とタスク間およびタスク間バッチ処理を組み合わせたバッチ対応フェアキュースケジューラを提案する。
タスク構築、共有対応デプロイメント、ランタイム実行にまたがるFMplexベースのサービススタックを実装します。
7つのFMバックボーン(16種類)と92のダウンストリームタスクにまたがって、FMplexは最大80%の空間分割、33.3%のベストプラクティスのコロケーションでレイテンシを削減し、クラスタスケールで最大6倍のタスクをホストする。
関連論文リスト
- FMTK: A Modular Toolkit for Composable Time Series Foundation Model Pipelines [2.6650725474904617]
時系列基礎モデル(TSFM)は、分類、回帰、計算タスクにおいて強い性能を示した。
最近のパイプラインはTSFMとタスク固有のエンコーダ、デコーダ、アダプタを組み合わせてパフォーマンスを向上させる。
我々は,TSFMパイプラインの構築と微調整を行うオープンソースで軽量な実装ツールキットであるFMTKを紹介する。
論文 参考訳(メタデータ) (2025-11-30T19:14:04Z) - StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets [14.867396697566257]
部分学習のセットアップをゼロショット設定に拡張し、複数のデータセット上でマルチタスクモデルをトレーニングします。
我々の方法であるStableMTLは、遅延回帰のために画像生成装置を再利用する。
タスク毎の損失に対して、注意深いバランスを必要とするのではなく、統一された潜伏損失を採用し、より多くのタスクにシームレスなスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-06-09T17:59:59Z) - Intelligent Orchestration of Distributed Large Foundation Model Inference at the Edge [46.1232919707345]
Large Foundation Models (LFMs)は、次世代のEdge AIアプリケーションの新機能をアンロックすることを約束する。
現在の分割推論戦略では、ノード間でLPM層を分割するが、変動するワークロードに適応するようには設計されていない。
本稿では, LFM層を実行時可変変数に配置し, 分割する, 適応型分割推論オーケストレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T15:35:56Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。