論文の概要: A Spatio-Temporal Expert Prefetching Framework for Efficient MoE-based LLM Inference
- arxiv url: http://arxiv.org/abs/2606.15453v1
- Date: Sat, 13 Jun 2026 20:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.582473
- Title: A Spatio-Temporal Expert Prefetching Framework for Efficient MoE-based LLM Inference
- Title(参考訳): 効率的なMOEに基づくLLM推論のための時空間エキスパートプレフェッチフレームワーク
- Authors: Yingnan Zhao, Razvan Bunescu, Ahmed Louri, Avinash Karanth, Ke Wang,
- Abstract要約: 最近,Mixture-of-Experts (MoE) ベースの大規模言語モデル (LLM) が,計算コストを比例的に増加させることなく,モデルキャパシティを向上させる効果的なアプローチとして登場した。
本稿では,ST-MoEを提案する。ST-MoE,ST-MoE,ST-MoE,ST-MoE,ST-MoE,ST-MoE,ST-MoE,ST-MoE,ST-MoE。
- 参考スコア(独自算出の注目度): 10.085075886001665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) based large language models (LLMs), such as Qwen and DeepSeek, have recently emerged as an effective approach to improving model capacity without proportionally increasing computational cost. By replacing the conventional feed-forward network in dense LLMs with a set of experts and activating only a subset of them for each input token, MoE models significantly increase the total number of parameters while keeping the per-token computation relatively manageable. However, this dynamic and irregular expert activation pattern also introduces substantial expert loading overhead during inference, since the required experts must be fetched on demand according to token-dependent routing results. As a result, expert loading latency becomes a major source of performance and energy inefficiency. To this end, we first perform a comprehensive analysis of expert selection behavior in various MoE-based LLMs and applications, including language understanding and code generation. Our analysis reveals that, within each application domain, expert requests exhibit strong correlation across both adjacent MoE layers and consecutive decoding tokens, making future expert activations predictable. Based on this insight, we propose ST-MoE, a spatio-temporal expert prefetching framework that proactively stages experts ahead of use to overlap expert loading with ongoing computation. ST-MoE combines a lightweight runtime prediction mechanism that preserves the original routing behavior with a reconfigurable hardware design that efficiently supports dynamic expert prefetching. The combined effect of the prediction mechanism with the supporting hardware significantly improves MoE inference performance and energy efficiency while preserving model inference accuracy.
- Abstract(参考訳): QwenやDeepSeekのようなMixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)は、最近、計算コストを比例的に増加させることなく、モデルキャパシティを改善する効果的なアプローチとして登場した。
従来のLLMのフィードフォワードネットワークを専門家の集合に置き換え、入力トークンごとにサブセットのみを活性化することにより、MoEモデルは、トークンごとの計算を比較的管理しやすくしながら、パラメータの総数を著しく増加させる。
しかし、この動的で不規則な専門家アクティベーションパターンは、トークン依存のルーティング結果に従って、要求された専門家が要求に応じてフェッチされなければならないため、推論中に相当量の専門家負荷を発生させる。
その結果、専門家によるロードレイテンシは、パフォーマンスとエネルギの非効率の主要な原因となります。
そこで我々はまず,言語理解やコード生成を含む様々なMOEベースのLLMおよびアプリケーションにおいて,専門家の選択行動の包括的分析を行う。
分析の結果、各アプリケーション領域において、専門家の要求は、隣接するMoE層と連続する復号トークンの両方に強い相関関係を示し、将来の専門家のアクティベーションが予測可能であることがわかった。
この知見に基づき,ST-MoEを提案する。ST-MoEは,現在進行中の計算と専門家の負荷の重複に先立って専門家を積極的にステージングする,時空間の専門家プレフェッチフレームワークである。
ST-MoEは、オリジナルのルーティング動作を保存する軽量なランタイム予測メカニズムと、動的専門家の事前フェッチを効率的にサポートする再構成可能なハードウェア設計を組み合わせる。
予測機構と支持ハードウェアとの併用により、モデル推論精度を維持しつつ、MoE推論性能とエネルギー効率を大幅に向上する。
関連論文リスト
- DAG-MoE: From Simple Mixture to Structural Aggregation in Mixture-of-Experts [56.175408382091796]
本研究では, 標準重み付け集約を構造集約に置き換えることにより, 専門家やルータを変更することなく, 専門家合成空間を拡大することを示す。
DAG-MoEは軽量モジュールを用いて,選択した専門家の最適な集約構造を自動的に学習するスパースMoEフレームワークである。
論文 参考訳(メタデータ) (2026-05-31T07:08:16Z) - Fast MoE Inference via Predictive Prefetching and Expert Replication [7.16306807191389]
MoE推論は、最適化されたGPU利用、ロード不均衡、複数のトークンから発生したレイテンシの上昇に悩まされる。
我々は、どの専門家がオーバーロードされるかを予測する動的専門家レプリケーション戦略を提案し、今後のトークンバッチのためにそれらを複製する。
複製された専門家は、並列処理の改善、GPUアイドル時間の短縮、推論の大幅な高速化につながる、レイヤ間でバッチトークンを同時に処理する。
論文 参考訳(メタデータ) (2026-05-12T05:03:53Z) - DyMoE: Dynamic Expert Orchestration with Mixed-Precision Quantization for Efficient MoE Inference on Edge [49.3949520091098]
高速エッジ推論のための動的混合精度量子化フレームワークDyMoEを提案する。
我々は、DyMoEが、最先端のオフロードベースラインと比較して、Time-Per-Output-Token(TPOT)において、Time-to-First-Tokenを3.44x-22.7x、14.58倍のスピードアップすることを示す。
論文 参考訳(メタデータ) (2026-03-19T17:30:01Z) - HFedMoE: Resource-aware Heterogeneous Federated Learning with Mixture-of-Experts [26.55877320740609]
我々は,HFedMoEを提案する。HFedMoEは不均一なMoEベースのFLファインチューニングフレームワークで,各クライアントに専門家のサブセットをカスタマイズする。
HFedMoEは、微調整パフォーマンスへの貢献に基づいて、専門家の重要性を特定している。
そして、情報ボトルネックの観点から専門家のサブセットを適応的に選択し、各クライアントのコンピューティング予算に適合させる。
論文 参考訳(メタデータ) (2026-01-02T05:56:11Z) - Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts [19.707274733121412]
Sparse Mixture of Experts (sMoE)は、大規模な視覚言語モデルをスケールするための重要なアプローチとなっている。
本稿では、確率的混合モデルを利用して入力空間を分割する新しいルーティングフレームワークであるInput Domain Aware MoEを提案する。
ルーティング確率を分布の混合としてモデル化することにより、バランスの取れた利用を達成しつつ、専門家が明確な特殊化境界を構築できる。
論文 参考訳(メタデータ) (2025-10-18T11:01:03Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。