論文の概要: FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs
- arxiv url: http://arxiv.org/abs/2606.19025v1
- Date: Wed, 17 Jun 2026 12:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.166413
- Title: FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs
- Title(参考訳): FoMoE:MoEの連盟で完全レプリカバリアを壊す
- Authors: Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane,
- Abstract要約: 本稿では,専門家層をワーカ間で分割することで,フルレプリカパラダイムを破るシステムFoMoEを紹介する。
我々は,FoMoEが効率的なベースライン上で最大1.42倍,DDPで45.44倍の通信コストを削減できることを実証した。
- 参考スコア(独自算出の注目度): 16.652851143065213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training Large Language Models (LLMs) typically demands large-scale infrastructure with tightly coupled hardware accelerators. While increasing model and dataset scale remains the dominant driver of performance, Mixture-of-Experts (MoEs) architectures have recently achieved state-of-the-art results by decoupling parameter count from computational cost. This efficiency enables training massive models on constrained compute budgets, yet it typically requires the high-speed interconnects of a single datacenter. To overcome these physical limits, recent approaches such as DiLoCo and Photon use low-communication data-parallel methods to enable scaling across geographically distributed, weakly connected data centers. However, these methods suffer from a fundamental inefficiency: they require full model replicas at every site, which imposes prohibitive memory constraints and communication overheads. In this work, we introduce FoMoE, a system that breaks the full-replica paradigm by partitioning expert layers across workers. We demonstrate that FoMoE: (I) reduces communication costs by up to 1.42x over efficient baselines and 45.44x over DDP via partial expert replication in the studied regimes; (II) achieves empirical throughput speedups of up to 1.4x through a novel skip-token mechanism; and (III) shows stable routing in the trained proxy regimes and projects the communication/memory benefits to 100B-scale configurations through system modelling.
- Abstract(参考訳): 事前学習型大規模言語モデル(LLM)は通常、ハードウェアアクセラレーションが密結合した大規模インフラストラクチャを必要とする。
モデルとデータセットのスケールの増大は依然としてパフォーマンスの主要な要因であるが、Mixture-of-Experts (MoEs)アーキテクチャは近年、パラメータカウントを計算コストから切り離して最先端の結果を得た。
この効率性により、制約された計算予算で大規模なモデルをトレーニングできるが、通常は単一のデータセンターの高速な相互接続を必要とする。
このような物理的な制限を克服するため、DiLoCoやPhotonといった最近のアプローチでは、地理的に分散された弱い接続されたデータセンターをまたぐスケーリングを可能にするために、低通信データ並列方式が採用されている。
しかし、これらの手法は基本的な非効率さに悩まされており、すべてのサイトに完全なモデルレプリカが必要であるため、禁止的なメモリ制約と通信オーバーヘッドが課される。
本稿では,専門家層をワーカ間で分割することで,フルレプリカパラダイムを破るシステムFoMoEを紹介する。
FoMoE: (I) 効率的なベースライン上での通信コストを最大1.42倍、DDP上での45.44倍に削減し、(II) 新たなスキップトケン機構によって最大1.4倍のスループットを実証的に達成し、(III) 訓練されたプロキシ機構における安定したルーティングを示し、システムモデリングによる100Bスケール構成への通信/メモリのメリットを投影する。
関連論文リスト
- Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism [1.0130502379786543]
HPCプラットフォーム上でのMoEモデルのトレーニングは、大きなメモリフットプリント、異種ネットワーク間の大規模通信の頻繁な増加、厳しいワークロードの不均衡によって妨げられている。
我々は,様々な並列化スキームの下で,MoE構成のメモリ,計算,通信要求を定量化する数学的モデルを開発した。
我々は、リソースモデリングを活用して、ターゲットHPCプラットフォーム上でのMoEモデルの効率的なトレーニング戦略を特定するフレームワークであるPiperを紹介する。
論文 参考訳(メタデータ) (2026-05-06T15:47:14Z) - MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - SFPrompt: Communication-Efficient Split Federated Fine-Tuning for Large Pre-Trained Models over Resource-Limited Devices [10.10998320880871]
SFPromptは、フェデレーション設定に適したプライバシー保護のための微調整手法である。
分割学習と連合学習を組み合わせてこれらの課題に対処する。
SFPromptは、フェデレートされた完全な微調整アプローチとして、競争力のあるパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-07-24T04:22:37Z) - Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
ScMoEは、重複する並列化戦略と統合された新しいショートカット接続型MoEアーキテクチャである。
一般的なトップ2のMoEベースラインと比較して、ScMoEはトレーニングで1.49倍、推論で1.82倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-04-07T17:17:23Z) - MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。
この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。
このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文 参考訳(メタデータ) (2023-10-04T13:00:53Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。