論文の概要: M*: A Modular, Extensible, Serving System for Multimodal Models
- arxiv url: http://arxiv.org/abs/2606.12688v2
- Date: Sat, 13 Jun 2026 05:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.11842
- Title: M*: A Modular, Extensible, Serving System for Multimodal Models
- Title(参考訳): M*:マルチモーダルモデルのためのモジュール型拡張型サービングシステム
- Authors: Atindra Jha, Naomi Sagan, Keisuke Kamahori, Irmak Sivgin, Rohan Sanda, Steven Gao, Mark Horowitz, Luke Zettlemoyer, Olivia Hsu, Jure Leskovec, Baris Kasikci, Stephanie Wang,
- Abstract要約: 本稿では,複合AIモデルの効率的な提供を目的とした汎用サービスシステムであるM*を提案する。
広範囲の家族から合成モデルを簡潔にキャプチャする方法を示す。
M*はまた、ロボット計画のためのV-JEPA 2-ACロールアウトベースラインを最大12.5倍上回っている。
- 参考スコア(独自算出の注目度): 62.77975969000349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are entering a new era of composite model architectures that integrate diverse components such as vision encoders, language backbones, diffusion and flow heads, audio codecs, action generators, and world-model predictors. Such architectures underpin a broad class of multimodal models, including unified multimodal models, omni models, speech-language models, vision-language-action policies, and world models. However, existing model serving frameworks were built on narrow assumptions about model structure, making them ill-suited to accommodate this new architectural diversity. Here we present M*, a universal serving system for efficient serving of composite AI models. M* represents models as dataflow graphs, processing requests spanning diverse modalities and tasks as traversals over these graphs. The core insight is a modular abstraction that supports arbitrary composition of model components, flexible placement onto a physical cluster, and model-agnostic optimizations within a distributed runtime. We call this abstraction the Walk Graph and show how it can concisely capture composite models from a broad range of families. We instantiate M* on representative models and find that it achieves, on average, 20% lower end-to-end latency than vLLM-Omni for text-to-image workloads on BAGEL, while delivering up to 2.9x lower real-time factor and 2.7x higher throughput for text-to-speech workloads on Qwen3-Omni. M* also outperforms the V-JEPA 2-AC rollout baseline for robotic planning by up to 12.5x. Thus, our work paves the road towards more efficient serving of complex models with minimal developer effort.
- Abstract(参考訳): 我々は、視覚エンコーダ、言語バックボーン、拡散とフローヘッド、オーディオコーデック、アクションジェネレータ、世界モデル予測器といった多様なコンポーネントを統合する複合モデルアーキテクチャの新しい時代に入った。
このようなアーキテクチャは、統一マルチモーダルモデル、オムニモデル、言語モデル、視覚言語アクションポリシー、世界モデルなど、幅広い種類のマルチモーダルモデルを支える。
しかし、既存のモデル提供フレームワークはモデル構造に関する狭い前提に基づいて構築されており、この新しいアーキテクチャの多様性に対応するのに不適当である。
本稿では,複合AIモデルの効率的な提供を目的とした汎用サービスシステムであるM*について述べる。
M*はモデルをデータフローグラフとして表現し、さまざまなモダリティとタスクをまたいだ要求をこれらのグラフ上のトラバーサルとして処理する。
中心となる洞察は、モデルコンポーネントの任意の構成、物理クラスタへの柔軟な配置、分散ランタイム内のモデル非依存の最適化をサポートするモジュール化された抽象化である。
この抽象化をウォークグラフと呼び、広範囲のファミリーから合成モデルを簡潔にキャプチャする方法を示します。
我々は代表モデル上でM*をインスタンス化し、BAGEL上のテキスト・トゥ・イメージのワークロードでは平均20%のレイテンシを vLLM-Omni よりも低くし、Qwen3-Omni 上でのテキスト・トゥ・音声のワークロードでは最大2.9倍のリアルタイム係数と2.7倍のスループットを提供する。
M*はまた、ロボット計画のためのV-JEPA 2-ACロールアウトベースラインを最大12.5倍上回っている。
このように、当社の作業は、開発者の最小限の労力で、複雑なモデルのより効率的な提供に向けた道を開いたのです。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。