論文の概要: FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs
- arxiv url: http://arxiv.org/abs/2606.19025v2
- Date: Sat, 20 Jun 2026 12:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.747861
- Title: FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs
- Title(参考訳): FoMoE:MoEの連盟で完全レプリカバリアを壊す
- Authors: Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane,
- Abstract要約: FoMoEは、労働者間で専門家層を分割し、地元の訓練中に非居住者の専門家をスキップすることで、フルレプリカパラダイムを破るシステムである。
本稿では,FoMoEが分散データ並列性(DDP)の通信コストを最大1.42倍に削減し,分散データ並列性(DDP)を最大45.44倍に抑えることを示す。
- 参考スコア(独自算出の注目度): 16.652851143065213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training Large Language Models (LLMs) typically demands large-scale infrastructure with tightly coupled hardware accelerators. Mixture-of-Experts (MoEs) architectures partially decouple model capacity from per-token compute. This efficiency alone does not make MoE training feasible over ordinary Internet links or loosely connected commodity hardware since active expert routing still assumes high-speed datacenter fabrics. Low-communication methods such as DiLoCo and Photon reduce synchronization frequency across distributed sites, mitigating bandwidth constraints, yet still require full model replicas at every site. This creates a mismatch: modern MoEs have sparse data paths, but their distributed training infrastructure remains communication-dense and memory-inefficient, limiting attempts to pool geographically distributed compute. In this work, we introduce FoMoE, a system that breaks the full-replica paradigm by partitioning expert layers across workers and skipping non-resident experts during local training. We demonstrate that FoMoE: (I) reduces communication costs by up to 1.42x over efficient baselines and 45.44x over Distributed Data Parallelism (DDP) via partial expert replication in controlled regimes; (II) achieves empirical throughput speedups of up to 1.4x through the skip-token mechanism; and (III) shows stable routing in the trained regimes and projects the communication/memory benefits to 100B-scale configurations through system modeling.
- Abstract(参考訳): 事前学習型大規模言語モデル(LLM)は通常、ハードウェアアクセラレーションが密結合した大規模インフラストラクチャを必要とする。
Mixture-of-Experts (MoEs)アーキテクチャは、モデルのキャパシティをトーケン毎の計算から部分的に分離する。
この効率だけでは、アクティブなエキスパートルーティングが高速なデータセンターファブリックを前提としているため、通常のインターネットリンクや疎結合のコモディティハードウェアに対してMoEトレーニングを実現することはできない。
DiLoCoやPhotonのような低コミュニケーション方式は、分散サイト間の同期周波数を低減し、帯域幅の制約を緩和するが、すべてのサイトにおいて完全なモデルレプリカを必要とする。
現代のMoEはスパースなデータパスを持っているが、その分散トレーニングインフラストラクチャは通信密度とメモリ非効率であり、地理的に分散した計算をプールしようとする試みは制限されている。
本稿では,FoMoEを紹介する。FoMoEは,作業者間で専門家層を分割し,地域訓練中に非居住者の専門家をスキップすることで,フルレプリカパラダイムを破るシステムである。
FoMoE: (I) 効率的なベースライン上での通信コストの最大1.42倍、分散データ並列性(DDP)上での45.44倍、(II) スキップトケン機構を介して最大1.4倍のスループットを実証的に達成し、(III) 訓練されたレシスタンスにおける安定したルーティングを示し、システムモデリングによる100Bスケール構成に対する通信/メモリのメリットをプロジェクトとして示す。
関連論文リスト
- Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism [1.0130502379786543]
HPCプラットフォーム上でのMoEモデルのトレーニングは、大きなメモリフットプリント、異種ネットワーク間の大規模通信の頻繁な増加、厳しいワークロードの不均衡によって妨げられている。
我々は,様々な並列化スキームの下で,MoE構成のメモリ,計算,通信要求を定量化する数学的モデルを開発した。
我々は、リソースモデリングを活用して、ターゲットHPCプラットフォーム上でのMoEモデルの効率的なトレーニング戦略を特定するフレームワークであるPiperを紹介する。
論文 参考訳(メタデータ) (2026-05-06T15:47:14Z) - MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - SFPrompt: Communication-Efficient Split Federated Fine-Tuning for Large Pre-Trained Models over Resource-Limited Devices [10.10998320880871]
SFPromptは、フェデレーション設定に適したプライバシー保護のための微調整手法である。
分割学習と連合学習を組み合わせてこれらの課題に対処する。
SFPromptは、フェデレートされた完全な微調整アプローチとして、競争力のあるパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-07-24T04:22:37Z) - Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
ScMoEは、重複する並列化戦略と統合された新しいショートカット接続型MoEアーキテクチャである。
一般的なトップ2のMoEベースラインと比較して、ScMoEはトレーニングで1.49倍、推論で1.82倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-04-07T17:17:23Z) - MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。
この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。
このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文 参考訳(メタデータ) (2023-10-04T13:00:53Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。