論文の概要: Tying the Loop -- Tied Expert Layers in Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2606.16825v1
- Date: Mon, 15 Jun 2026 15:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.657675
- Title: Tying the Loop -- Tied Expert Layers in Mixture-of-Experts Language Models
- Title(参考訳): ループのタイピング - エキスパートの混合言語モデルにおける階層化
- Authors: Martin Jaggi,
- Abstract要約: これは連続的なトランスフォーマー層にまたがるエキスパートパラメータを共有するアーキテクチャ修正である。
我々は、OLMoE、Qwen3、DeepSeekスタイルのMoEなど、一般的な最先端アーキテクチャにおけるこのアプローチを評価した。
- 参考スコア(独自算出の注目度): 50.34585122347149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures efficiently scale Large Language Models (LLMs) by activating only a small fraction of their experts per token, yet the full parameter count - dominated by the expert parameters - must be held in training and inference memory. To address this, we introduce Expert Tying, an architectural modification that shares expert parameters across consecutive transformer layers while preserving independent, layer-wise routing and attention. We evaluate this approach across common, state-of-the-art architectures, including OLMoE, Qwen3, and DeepSeek-style MoEs. Our pretraining experiments demonstrate that tying experts can reduce memory footprint by almost 2x at virtually no degradation in perplexity or downstream quality. By exploiting the parameter redundancy inherent in MoE pathways, our method provides a highly favorable compute-to-memory trade-off, advancing efficient training and scaling of next-generation LLMs.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは,トークン単位のエキスパートのごく一部をアクティベートすることで,大規模言語モデル(LLM)を効率的にスケールアップするが,専門家パラメータが支配する完全なパラメータカウントは,トレーニングと推論メモリで保持しなければならない。
これを解決するために、Expert Tyingを導入します。これは、連続的なトランスフォーマー層にまたがるエキスパートパラメータを共有するアーキテクチャ修正であり、独立した、レイヤワイドなルーティングとアテンションを保持します。
我々は、OLMoE、Qwen3、DeepSeekスタイルのMoEなど、一般的な最先端アーキテクチャにおけるこのアプローチを評価した。
事前学習実験により,メモリフットプリントをほぼ2倍に減らし,難易度や下流品質をほぼ低下させることができた。
提案手法は,MoE経路に固有のパラメータ冗長性を生かして,高速な学習と次世代LLMのスケーリングを実現する。
関連論文リスト
- ReXMoE: Reusing Experts with Minimal Overhead in Mixture-of-Experts [25.46805026086543]
既存のレイヤローカルアプローチを超えてルーティングを改善する新しいMoEアーキテクチャであるReXMoEについて説明する。
ReXMoEは、個々の専門家の能力を犠牲にすることなく、よりリッチな専門家の組み合わせを可能にする、階層単位の予算から専門家の次元を分離する。
論文 参考訳(メタデータ) (2025-10-20T12:27:55Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。