論文の概要: SpenseGPT: Practical One-shot Pruning Enabling Sparse and Dense GEMMs for LLM Inference
- arxiv url: http://arxiv.org/abs/2606.10445v1
- Date: Tue, 09 Jun 2026 05:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.338972
- Title: SpenseGPT: Practical One-shot Pruning Enabling Sparse and Dense GEMMs for LLM Inference
- Title(参考訳): SpenseGPT: LLM推論のためのワンショットパワリングスパースとDense GEMM
- Authors: Jaeseong Lee, Seung-won Hwang, Samyam Rajbhandari,
- Abstract要約: 半構造化された2:4の空間は、現代の加速器によって広く支持され、理論的なスピードアップが最大2倍になる。
既存の緩和されたスパーシリティフォーマットでは、特別なコンパイラサポートが必要か、エンドツーエンドのスピードアップを制限する必要がある。
重み行列を2:4スパース領域と高密度領域に分割する,実用的なハイブリッドスパースダンス形式であるSpenseを提案する。
- 参考スコア(独自算出の注目度): 35.6129474401464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-structured 2:4 sparsity is widely supported by modern accelerators, providing up to a 2x theoretical speedup. However, its strict 50% sparsity constraint often causes non-negligible accuracy degradation under post-training pruning. Meanwhile, existing relaxed sparsity formats either require specialized compiler support or introduce runtime overheads that limit end-to-end speedup. We propose Spense, a practical hybrid sparse-dense format that splits each weight matrix into a 2:4 sparse region and a dense region. This design relaxes the effective sparsity constraint while remaining compatible with existing high-performance sparse and dense GEMM libraries, avoiding both custom compiler support and input activation expansion. Building on this format, we introduce SpenseGPT, a one-shot post-training pruning method that produces sparse and dense regions. Notably, we show that selecting the right dense regions is important, and we devise two different strategies to choose them. Experiments on Qwen3-32B and Seed-OSS-36B demonstrate that our method achieves up to 1.2x end-to-end decoding speedup on B200 GPUs with FP8 precision, while preserving accuracy. To the best of our knowledge, this is the first one-shot pruning demonstration of real-world end-to-end LLM decoding speedup from semi-structured sparse tensor cores on recent GPUs such as B200s, while maintaining model quality.
- Abstract(参考訳): 半構造化された2:4の空間は、現代の加速器によって広く支持され、理論的なスピードアップが最大2倍になる。
しかし、その厳密な50%のスパーシティ制約は、訓練後のプルーニングにおいて、しばしば非無視的な精度劣化を引き起こす。
一方、既存の緩和されたスパーシティフォーマットは、特別なコンパイラサポートを必要とするか、エンドツーエンドのスピードアップを制限するランタイムオーバーヘッドを導入する必要がある。
重み行列を2:4スパース領域と高密度領域に分割する,実用的なハイブリッドスパースダンス形式であるSpenseを提案する。
この設計は、既存の高性能スパースライブラリと高密度なGEMMライブラリとの互換性を維持しながら、効率的な空間制約を緩和し、カスタムコンパイラのサポートと入力アクティベーション拡張の両方を避ける。
このフォーマットで構築したSpenseGPTは、疎密で密集した領域を生成する1ショットのポストトレーニングプルーニング手法である。
特に、適切な高密度領域を選択することが重要であることを示し、それらを選択するための2つの異なる戦略を考案する。
Qwen3-32B と Seed-OSS-36B の実験により,FP8 精度の B200 GPU 上で,精度を保ちながら最大1.2倍のエンド・ツー・エンドの復号高速化を実現した。
我々の知る限り、これはB200sのような最近のGPU上の半構造化されたスパーステンソルコアから、実世界のエンド・ツー・エンドのLCMデコードスピードアップを、モデル品質を維持しながら、最初のワンショットプルーニングデモである。
関連論文リスト
- MACKO: Sparse Matrix-Vector Multiplication for Low Sparsity [2.1485350418225244]
MACKO-SpMVはGPU最適化フォーマットであり、ストレージオーバーヘッドを減らすためにカーネルが共同設計されている。
疎度50%のMACKOは、高密度表現に対する1.5倍のメモリ削減と1.2-1.5倍のスピードアップを持つ最初のアプローチである。
Llama2-7BをWandaに50%の間隔で適用することで、fp16精度で1.5倍のメモリ削減と1.5倍高速な推論を実現する。
論文 参考訳(メタデータ) (2025-11-17T07:10:37Z) - DuoGPT: Training-free Dual Sparsity through Activation-aware Pruning in LLMs [19.710403142085102]
DuoGPTは、非構造化ウェイトプルーニングとアクティベーション間隔を組み合わせることで、デュアルスパース(spMspV)ワークロードを構築するフレームワークである。
我々は,DuoGPTがベースライン密度モデルと比較して1.39$times$のアイソスピードアップで9.17%の精度で,最先端の構造化プルーニング法より優れていることを示す。
論文 参考訳(メタデータ) (2025-06-25T07:35:12Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Sparse Fine-tuning for Inference Acceleration of Large Language Models [48.285897264669984]
大規模言語モデル(LLM)の精密細粒度調整の問題点について考察する。
蒸留型損失の詳細な研究を行い,L2に基づく蒸留手法をSquareHeadと呼ぶ。
MPTテキスト生成では、細かな微調整が精度低下なしに75%の間隔に到達できることを初めて示す。
論文 参考訳(メタデータ) (2023-10-10T18:28:38Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。