論文の概要: TENP: Trapezoidal Expert Neuron Pruning For Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2606.09885v1
- Date: Wed, 03 Jun 2026 07:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.006056
- Title: TENP: Trapezoidal Expert Neuron Pruning For Mixture-of-Experts
- Title(参考訳): トラペゾイドのエキスパートニューロンが実験の混合のために切断される
- Authors: Jiangyang He, Shaolin Zhu, Deyi Xiong,
- Abstract要約: TENP(Structured Trapezoidal ExpertNeuron Pruning framework)を提案する。
我々は、重要な専門家を特定し、保持するとともに、重要でない専門家に専門家ニューロンプルーニング(ENP)を適用します。
ENPでは、各ニューロンのプロジェクターのプロジェクター出力に対する寄与を測定し、重要なニューロンを特定し、保持する。
- 参考スコア(独自算出の注目度): 57.78282303757474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts large language models (LLMs) scale efficiently through sparse activation, yet their deployment is fundamentally constrained by the large static parameter footprint of experts. Existing compression approaches either remove entire experts, disrupting routing topology and harming performance, or rely on unstructured weight pruning with limited practical efficiency. To address the limitations, we propose TENP, a structured Trapezoidal ExpertNeuron Pruning framework. Using a few samples, we identify and retain important experts, while applying expert neuron pruning (ENP) to less important experts, reserving model parameters in a trapezoidal pattern from shallow to deep layers. When evaluating expert importance, we jointly consider both the magnitude of the expert output and its ability to change the direction of the input vector. For ENP, we measure each neuron's projected contribution to the expert output to identify and retain important neurons. We conduct extensive experiments on the Qwen and DeepSeek models. Under a routing expert sparsity of 40% and an average of 63.76% activated expert parameters, the DeepSeek model suffers only a 1-point drop in accuracy compared to the full-parameter model. Moreover, it outperforms the full-parameter model by 10% on code generation tasks.
- Abstract(参考訳): Mixture-of-Experts Large Language Model (LLM) はスパースアクティベーションを通じて効率よくスケールするが、そのデプロイメントは専門家の大規模な静的パラメータフットプリントによって根本的に制限される。
既存の圧縮アプローチでは、専門家全体を排除し、ルーティングトポロジを乱し、パフォーマンスを損なうか、あるいは実用効率が制限された非構造的な重量刈りに頼っている。
この制限に対処するため,構造化されたトラペゾイダルエキスパートNeuron PruningフレームワークTENPを提案する。
少数のサンプルを用いて、重要な専門家を特定し、維持するとともに、より重要でない専門家に専門家ニューロンプルーニング(ENP)を適用し、浅い層から深い層までの台形パターンのモデルパラメータを保存する。
専門家の重要度を評価する際、専門家の出力の大きさと入力ベクトルの方向を変える能力の両方を共同で検討する。
ENPでは、各ニューロンのプロジェクターのプロジェクター出力に対する寄与を測定し、重要なニューロンを特定し、保持する。
我々はQwenモデルとDeepSeekモデルについて広範な実験を行った。
ルーティング専門家の間隔は40%、アクティベートされたエキスパートパラメータは63.76%で、DeepSeekモデルはフルパラメータモデルと比較して1ポイントの精度しか低下しない。
さらに、コード生成タスクで全パラメータモデルを10%上回る。
関連論文リスト
- Slicing and Dicing: Configuring Optimal Mixtures of Experts [49.5613403644084]
本研究は,最大6.6Bのパラメータにまたがる2000以上の事前学習走行に関する最初の系統的研究である。
私たちは、全体専門家、専門家の次元、単一層内の異種の専門家サイズ、共有専門家サイズ、ロードバランシングメカニズムを徹底的に変化させています。
専門家の数え方と粒度に焦点を合わせ、その他の選択肢は最終品質に最小限の影響を与える。
論文 参考訳(メタデータ) (2026-05-12T07:47:22Z) - Efficient Quantization of Mixture-of-Experts with Theoretical Generalization Guarantees [13.67631667766697]
Sparse Mixture-of-Experts (MoE) は、入力毎に少数の専門家のみを活性化することにより、言語とビジョンモデルのスケーリングを効率的に行うことができる。
MoEは推論中にかなりのメモリオーバーヘッドを発生させる。
本稿では,学習中のルータl2ノルムの変化に基づいて,各専門家にビット幅を割り当てる,理論的に基礎付けられた混合精度戦略を提案する。
論文 参考訳(メタデータ) (2026-04-07T23:17:23Z) - REAP the Experts: Why Pruning Prevails for One-Shot MoE compression [5.517309667435783]
専門家の刈り取りは、生成タスクにおいて優れた戦略であることを示す。
ルータ重み付きエキスパートアクティベーション・プルーニング(REAP)を提案する。
提案手法は,Qwen3-Coder-480B と Kimi-K2 を用いて,コード生成およびツール呼び出しタスクの無作為な圧縮を実現する。
論文 参考訳(メタデータ) (2025-10-15T18:29:28Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper [75.6582687942241]
本稿では,Mixture of Expert Prompt Tuning (MEPT) を効果的かつ効率的な多様体マッピングフレームワークとして提案する。
MEPTは複数のプロンプト専門家を統合し、多様な非定常データ分布を適応的に学習する。
経験的評価により、MEPTはSuperGLUE上でいくつかの最先端パラメータの効率的なベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-08-31T21:19:25Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Finedeep: Mitigating Sparse Activation in Dense LLMs via Multi-Layer Fine-Grained Experts [82.74439280067492]
ファインディープ(英: Finedeep)は、高密度モデルのための、きめ細かいきめ細かなアーキテクチャである。
我々のフレームワークは、従来の高密度モデルのフィードフォワードニューラルネットワーク層を小さな専門家に分割する。
各専門家の貢献度を決定するための新しいルーティング機構が提案されている。
論文 参考訳(メタデータ) (2025-02-18T15:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。