Fugu-MT 論文翻訳(概要): SoftMoE: Soft Differentiable Routing for Mixture-of-Experts in LLMs

論文の概要: SoftMoE: Soft Differentiable Routing for Mixture-of-Experts in LLMs

arxiv url: http://arxiv.org/abs/2606.17952v1
Date: Tue, 16 Jun 2026 14:05:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-17 17:15:32.46814
Title: SoftMoE: Soft Differentiable Routing for Mixture-of-Experts in LLMs
Title（参考訳）: ソフトモーメント : LLMの混合実験用ソフトディフュータブルルーティング
Authors: Mikołaj Zasada, Łukasz Struski, Jacek Tabor, Marcin Kurdziel,
Abstract要約: 離散的ルーティングをトラッピングしたソフトトップ-k$LapSum緩和に置き換えるSoftMoEを提案する。さらに、各レイヤごとのアクティブエキスパートの平均数をパラメータ化し、グローバルな予算制約を課します。 SoftMoEは、自動回帰モデリングと、言語モデリングとダウンストリームタスクのスパースMoEに匹敵するパフォーマンスと完全に互換性がある。
参考スコア（独自算出の注目度）: 10.607329413550223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sparse Mixture-of-Experts (MoE) architectures enable scaling LLM parameters under a fixed inference budget by activating only a small subset of experts via top-$k$ routing. While this preserves causality and suits autoregressive language models, the discrete top-$k$ operator is not differentiable, forcing a fixed number of active experts per input and resulting in inefficient use of computation. We propose SoftMoE, which replaces discrete routing with a truncated soft top-$k$ LapSum relaxation, allowing gradient-based optimization of expert routing. We further parameterize the mean number of active experts per layer and impose a global budget constraint, enabling the model to learn how to allocate expert capacity across layers. SoftMoE remains fully compatible with autoregressive modeling and achieves performance comparable to or better than sparse MoE on language modeling and downstream tasks, while activating significantly fewer experts. Notably, the learned allocation is highly non-uniform, with later layers activating more experts. The source code is publicly available$^\dagger$.
Abstract（参考訳）: Sparse Mixture-of-Experts (MoE)アーキテクチャは、特定の推論予算の下でLLMパラメータのスケーリングを可能にする。これは因果性を保持し、自己回帰型言語モデルに適合するが、離散のトップ$k$演算子は微分不可能であり、入力毎に一定の数のアクティブエキスパートを強制し、計算の非効率な利用をもたらす。離散的ルーティングをトラッピングしたソフトトップ-$k$ LapSum緩和に置き換えるSoftMoEを提案し、エキスパートルーティングの勾配に基づく最適化を可能にする。さらに、レイヤごとのアクティブな専門家の平均数をパラメータ化し、グローバルな予算制約を課し、モデルがレイヤ間で専門家のキャパシティを割り当てる方法を学べるようにします。 SoftMoEは、自動回帰モデリングと完全に互換性を持ち、言語モデリングや下流タスクにおいて、低速なMoEに匹敵するパフォーマンスを達成する一方で、専門家のアクティベートも大幅に少ない。特に、学習したアロケーションは非一様であり、後続のレイヤはより多くの専門家を活性化させる。ソースコードは、$^\dagger$で公開されている。

関連論文リスト

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。 MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文参考訳（メタデータ） (2025-11-19T18:48:27Z)
ReXMoE: Reusing Experts with Minimal Overhead in Mixture-of-Experts [25.46805026086543]
既存のレイヤローカルアプローチを超えてルーティングを改善する新しいMoEアーキテクチャであるReXMoEについて説明する。 ReXMoEは、個々の専門家の能力を犠牲にすることなく、よりリッチな専門家の組み合わせを可能にする、階層単位の予算から専門家の次元を分離する。
論文参考訳（メタデータ） (2025-10-20T12:27:55Z)
L-MoE: End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts [10.21556794551883]
L-MoE: LoRA エキスパートの軽量混合体について紹介する。 L-MoEは、MoEの専門家をタスク特化して低ランクのアダプタとして再定義する。 L-MoE の公式な数学的枠組みを提案する。
論文参考訳（メタデータ） (2025-10-19T08:44:25Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。 Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文参考訳（メタデータ） (2024-11-01T20:37:58Z)
Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文参考訳（メタデータ） (2024-02-19T21:20:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。