論文の概要: Beyond FLOPs: Benchmarking Real Inference Acceleration of LLM Pruning under a GEMM-Centric Taxonomy
- arxiv url: http://arxiv.org/abs/2606.09080v1
- Date: Mon, 08 Jun 2026 06:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.759465
- Title: Beyond FLOPs: Benchmarking Real Inference Acceleration of LLM Pruning under a GEMM-Centric Taxonomy
- Title(参考訳): FLOPsを超えて:GEMM-Centric Taxonomyの下でのLLMプルーニングのリアルタイム推論高速化のベンチマーク
- Authors: Haozhe Hu, Hao Wu, Anhao Zhao, Longwei Ding, Peiran Yin, Yunpu Ma, Xiaoyu Shen,
- Abstract要約: プルーニングは、大規模言語モデル(LLM)推論を加速するための支配的なパラダイムとして現れている。
我々はGEMM中心の分類法を導入し、一般的な行列乗法における論理的textbfM, textbfN, textbfK次元に従って既存のプルーニング手法を再編成する。
- 参考スコア(独自算出の注目度): 13.790557800221057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning has emerged as a dominant paradigm for accelerating large language model (LLM) inference, spanning a broad spectrum of methods that remove computation across tokens, layers, heads, dimensions, and attention patterns. Despite sharing the same objective, these pruning approaches induce fundamentally different execution behaviors, causing realized speedups to depend heavily on hardware and kernel implementations. Consequently, the practical acceleration benefits of different pruning families remain poorly understood. In this work, we introduce a GEMM-centric taxonomy that reorganizes existing pruning methods according to the logical \textbf{M}, \textbf{N}, and \textbf{K} dimensions of general matrix multiplication (GEMM). Leveraging this abstraction, we build a unified benchmarking framework that enables implementation-consistent comparison across the pruning design space and systematically characterizes the acceleration--quality Pareto frontier. Our results show that static depth pruning remains the strongest Pareto-optimal baseline and stays closest to its theoretical acceleration upper bound in memory-bounded scenarios. During prefill, the frontier transitions from static depth at low quality loss (0\%--4\%), to dynamic depth at moderate loss (5\%--16\%), and finally to static width pruning at higher loss levels (17\%--26\%). These findings establish the first unified view of the practical limits of pruning-based LLM acceleration and provide guidance for future pruning research.\footnote{Code is available at https://github.com/EIT-NLP/LLM-Pruning/tree/main/PruningInferSim}
- Abstract(参考訳): プルーニングは大規模言語モデル(LLM)推論を加速する主要なパラダイムとして現れ、トークン、レイヤ、ヘッド、ディメンション、アテンションパターンの計算を除去する幅広い手法にまたがっている。
同じ目的を共有しながらも、これらのプルーニングアプローチは基本的に異なる実行動作を誘導し、実現されたスピードアップはハードウェアとカーネルの実装に大きく依存する。
その結果、異なる刈り取り家族の実践的な加速効果は、いまだに理解されていない。
本研究では,GEMM中心の分類法を導入し,一般行列乗法(GEMM)の論理的 \textbf{M}, \textbf{N}, \textbf{K} 次元に基づいて既存の刈り込み法を再編成する。
この抽象化を生かした統一的なベンチマークフレームワークを構築し、プルーニング設計空間における実装一貫性の比較を可能にし、アクセラレーション品質の高いParetoフロンティアを体系的に特徴付ける。
以上の結果から,静的プルーニングはPalto-Optimalベースラインとして最強であり,メモリバウンドシナリオにおける理論加速度上界に最も近いままであることが示唆された。
プレフィル中、フロンティアは低い品質損失で静的な深さ (0\%--4\%) から、適度な損失でダイナミックな深さ (5\%-16\%) に移行し、最後に、より高い損失レベルで静的な幅プルーニング (17\%-26\%) へと移行する。
これらの知見は, 刈り込み型LCM加速の実用限界に関する最初の統一的な見解を確立し, 今後の刈り込み研究の指針を提供する。
https://github.com/EIT-NLP/LLM-Pruning/tree/main/PruningInferSim} で利用可能である。
関連論文リスト
- Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks [52.153950303594684]
交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
論文 参考訳(メタデータ) (2026-03-12T18:19:21Z) - StructPrune: Structured Global Pruning asymptotics with $\mathcal{O}(\sqrt{N})$ GPU Memory [11.996799691784693]
プルーニングは大規模言語モデル(LLM)のスケーリングに重要である
グローバルプルーニングは高いパフォーマンスを実現するが、$mathcalO(N)$メモリを必要とする。
ローカルプルーニングは、レイヤを独立してプルーニングすることで、GPUメモリ使用量を単一のレイヤに短縮する。
論文 参考訳(メタデータ) (2025-09-25T19:16:50Z) - Effective Dimension Aware Fractional-Order Stochastic Gradient Descent for Convex Optimization Problems [2.5971517743176915]
データ駆動方式で分数指数を適応する2SED分数次勾配Descent (2SEDFOSGD)を提案する。
理論的には、この手法は、na"ive fractional SGD"で観察されるスラグや不安定な振る舞いを伴わない分数記憶の利点を保っている。
論文 参考訳(メタデータ) (2025-03-17T22:57:37Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Achieving Margin Maximization Exponentially Fast via Progressive Norm Rescaling [6.8271468231014145]
線形分離可能なデータの分類における勾配に基づくアルゴリズムによるマージン最大化バイアスについて検討する。
我々は、プログレッシブ・リスケーリング・グラディエント(PRGD)と呼ばれる新しいアルゴリズムを提案し、PRGDがエム指数率でマージンを最大化できることを示す。
PRGDはまた、線形に分離できないデータセットやディープニューラルネットワークに適用する際の一般化性能の向上を約束している。
論文 参考訳(メタデータ) (2023-11-24T10:07:10Z) - A Unified Framework for Soft Threshold Pruning [27.853698217792456]
反復収縮閾値アルゴリズム(ISTA)を用いた暗黙の最適化問題としてソフトしきい値プルーニングを再構成する。
我々は,フレームワークに基づくしきい値スケジューリングの詳細な研究を通じて,最適なしきい値スケジューラを導出する。
原理的には、導出プルーニングアルゴリズムは、SGDで訓練された任意の数学的モデルをスパース化することができる。
論文 参考訳(メタデータ) (2023-02-25T08:16:14Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。