論文の概要: Does Mixture-of-Experts Actually Help Inference on Consumer and Edge Hardware? An Empirical Study
- arxiv url: http://arxiv.org/abs/2606.21428v1
- Date: Fri, 19 Jun 2026 13:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.042434
- Title: Does Mixture-of-Experts Actually Help Inference on Consumer and Edge Hardware? An Empirical Study
- Title(参考訳): 試行錯誤は消費者とエッジハードウェアの推論に役立つか? 実証的研究
- Authors: Alfarizy Alfarizy, Hung Truong Thanh Nguyen, René Richard, Roozbeh Razavi-Far, Hung Cao,
- Abstract要約: Mixture-of-Experts (MoE)言語モデルはしばしばリソース制約推論の理想として記述される。
MoEモデルは、コンシューマグレードおよびエッジハードウェア上で、同等の高密度モデルよりも高速かつ安価に動作するかどうかを問う。
- 参考スコア(独自算出の注目度): 1.798032505154396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) language models are often described as ideal for resource-constrained inference. Each token activates only a small subset of experts, so the per-token compute cost, in floating-point operations (FLOPs), resembles that of a much smaller dense model. Whether that FLOP advantage survives in practice is far less clear. We ask whether MoE models actually run faster and cheaper than comparable dense models on consumer-grade and edge hardware. We benchmark OLMoE-1B-7B (1.3 B active of 6.9 B total) against three dense baselines on an Apple M2 Pro and an NVIDIA Jetson Orin Nano 8 GB through llama.cpp, measuring throughput, memory, and on-device energy. The answer is device-dependent: OLMoE's active-parameter advantage is only partly realised on the laptop (~10% behind the same-active Llama-3.2-1B) and erodes on the edge device (~31% behind, at 2.1$\times$ the energy per token, with peak memory at the 8 GB ceiling). Patching llama.cpp to time the decode graph node-by-node shows routing accounts for under 9% of MoE-block compute on the cleaner edge backend, so the gap reflects total-parameter memory footprint, expert dispatch, and KV-cache pressure rather than routing. The implication is that on bandwidth-bound edge hardware, inference cost tracks total parameters, not active ones, and sparse activation does not buy back what the device is constrained on. These findings are bounded to one MoE model at this parameter scale and two devices, and we release the full measurement harness and per-run data.
- Abstract(参考訳): Mixture-of-Experts (MoE)言語モデルはしばしばリソース制約推論の理想として記述される。
各トークンは専門家の小さなサブセットのみを活性化するので、浮動小数点演算(FLOP)において、トーケン当たりの計算コストははるかに小さな密度のモデルと似ている。
FLOPの利点が実際に残っているかどうかは、明らかになっていない。
MoEモデルは、コンシューマグレードおよびエッジハードウェア上で、同等の高密度モデルよりも高速かつ安価に動作するかどうかを問う。
我々は,Apple M2 ProとNVIDIA Jetson Orin Nano 8 GBの3つの高密度ベースラインに対してOLMoE-1B-7B(合計6.9Bの1.3B能動)をllama.cppでベンチマークし,スループット,メモリ,オンデバイスエネルギーを測定した。
OLMoEのアクティブパラメータの利点はラップトップ(Llama-3.2-1Bの約10%)とエッジデバイス(約31%遅れ、トークン当たりのエネルギー2.1$\times$8GBのピークメモリ)でのみ実現されている。
llama.cppをノードごとのデコードグラフにアタッチすると、よりクリーンなエッジバックエンド上のMoEブロック計算の9%未満のルーティングアカウントが表示されるため、ギャップはルーティングよりも全パラメータメモリフットプリント、エキスパートディスパッチ、KVキャッシュプレッシャーを反映する。
帯域幅が制限されたエッジハードウェアでは、推論コストはアクティブなパラメータではなく、総パラメータを追跡する。
これらの結果は、このパラメータスケールで1つのMoEモデルと2つのデバイスにバウンドされ、フル測定ハーネスとラン毎のデータをリリースする。
関連論文リスト
- MELINOE: Fine-Tuning Enables Memory-Efficient Inference for Mixture-of-Experts Models [13.907916161242794]
Mixture-of-Experts (MoE)モデルアーキテクチャはトークン当たりのアクティベートパラメータの数を著しく削減することができる。
彼らの全体的なパラメータ数とモデルサイズは、リソース制約された設定で広く使用されるのを妨げている。
MELINOE(MelinoE)は、MoEモデルを微調整し、より強く、配列ごとに少数の専門家を活性化する手法である。
論文 参考訳(メタデータ) (2026-01-30T14:40:18Z) - Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文 参考訳(メタデータ) (2025-12-16T04:39:10Z) - BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - EdgeMoE: Empowering Sparse Large Language Models on Mobile Devices [3.3947808667959536]
EdgeMoEは、Mix-of-expert (MoE) LLM用のオンデバイス推論エンジンである。
非専門家の重みはデバイスメモリに保持されるが、専門家の重みは外部ストレージに保持され、アクティベート時にのみメモリにフェッチされる。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。