論文の概要: Attribution-Guided and Coverage-Maximized Pruning for Structural MoE Compression
- arxiv url: http://arxiv.org/abs/2606.18304v1
- Date: Tue, 16 Jun 2026 06:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.807926
- Title: Attribution-Guided and Coverage-Maximized Pruning for Structural MoE Compression
- Title(参考訳): 構造MoE圧縮における属性誘導および被覆最大化プルーニング
- Authors: Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao,
- Abstract要約: そこで本研究では,MoEモデルに適した構造解析フレームワークを提案する。
我々のアプローチはメモリフットプリントを5.27$times削減し、最先端のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 74.00650541246374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models scale compute efficiently, yet remain expensive to deploy due to their substantial memory footprint and inference overhead. Prior compression methods mainly operate at the expert level, either removing entire experts or ranking experts by coarse-grained importance scores. However, such expert-wise decisions are often too coarse to capture fine-grained redundancy, leading to misallocated pruning budgets and limited compression. To address this problem, we observe that information within MoE experts is highly concentrated in a small subset of channels, leaving substantial redundancy even in experts deemed important. Based on this observation, we propose a structural pruning framework tailored for MoE models. Our method reformulates prune-ratio allocation as a channel-score coverage maximization problem and solves it efficiently using an attribution-based approximation. Experiments on DeepSeek and Qwen MoE models show that our method preserves model accuracy under 50% or 25% structured pruning when combined with 4-bit quantization. On Qwen3-30B-A3B, our approach reduces memory footprint by 5.27$\times$ and consistently outperforms state-of-the-art baselines across diverse benchmarks.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは効率よくスケールするが、メモリフットプリントと推論オーバーヘッドのため、デプロイに費用がかかる。
従来の圧縮手法は主に専門家レベルで運用され、専門家全体や専門家のランク付けを粗い重要度スコアで除去する。
しかし、そのような専門家の判断は、しばしばきめ細かな冗長性を捉えるには大きすぎるため、不適切に配置されたプルーニング予算と圧縮が制限される。
この問題に対処するために、我々はMoEの専門家の情報がチャンネルのごく一部に集中していることを観察し、専門家でさえかなりの冗長性を残している。
そこで本研究では,MoEモデルに適した構造解析フレームワークを提案する。
本手法は,チャネルスコアのカバレッジ最大化問題としてプルーネ比の割り当てを再構成し,属性に基づく近似を用いて効率よく解決する。
DeepSeek モデルと Qwen MoE モデルを用いた実験により,本手法は4ビット量子化と組み合わせた場合,50% または25% の構造化プルーニングでモデル精度を維持できることを示した。
Qwen3-30B-A3Bでは、メモリフットプリントを5.27$\times$に削減し、さまざまなベンチマークで最先端のベースラインを一貫して上回ります。
関連論文リスト
- Does a Global Perspective Help Prune Sparse MoEs Elegantly? [21.594202826999958]
既存のプルーニング手法は、通常、平らなMoEで生じる不均一な冗長性を見渡して、層全体に均一に予算を割り当てる。
GRAPE(Global Redundancy-Aware Pruning of Experts)は,多層冗長性に基づいて動的にプルーニング予算を割り当てるグローバルプルーニング戦略である。
Mixtral-8x7B、Mixtral-8x22B、DeepSeek-MoE、Qwen-MoE、およびGPT-OSSの実験では、同じプルーニング予算の下では、GRAPEは一貫して最高の平均性能を達成している。
論文 参考訳(メタデータ) (2026-04-08T00:41:11Z) - FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach [58.345210583013454]
FineRMoEは、細粒度の専門家設計を中間次元と出力次元の両方に拡張するアーキテクチャである。
パラメータ効率の6倍、プリフィルレイテンシの281倍、推論時の復号スループットの136倍を実現している。
論文 参考訳(メタデータ) (2026-03-09T12:00:36Z) - REAP the Experts: Why Pruning Prevails for One-Shot MoE compression [5.517309667435783]
専門家の刈り取りは、生成タスクにおいて優れた戦略であることを示す。
ルータ重み付きエキスパートアクティベーション・プルーニング(REAP)を提案する。
提案手法は,Qwen3-Coder-480B と Kimi-K2 を用いて,コード生成およびツール呼び出しタスクの無作為な圧縮を実現する。
論文 参考訳(メタデータ) (2025-10-15T18:29:28Z) - MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文 参考訳(メタデータ) (2025-07-01T03:02:59Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。