論文の概要: APEX4: Efficient Pure W4A4 LLM Inference via Intra-SM Compute Rebalancing
- arxiv url: http://arxiv.org/abs/2606.08761v1
- Date: Sun, 07 Jun 2026 18:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.435024
- Title: APEX4: Efficient Pure W4A4 LLM Inference via Intra-SM Compute Rebalancing
- Title(参考訳): APEX4:SM内コンピュート・リバランシングによる高効率純W4A4 LLM推論
- Authors: Hong Guo, Nianhui Guo, Weixing Wang, Jona Otholt, Christoph Meinel, Haojin Yang,
- Abstract要約: W4A4の量子化はINT4 Coreの完全な利用を約束するが、Coresのグループの分散化オーバーヘッドは、既存のシステムを混合精度のフォールバックへと駆り立てている。
本稿では,SM内計算バランスがこのボトルネックをいかに支配するかについて,最初の系統的研究を行う。
- 参考スコア(独自算出の注目度): 7.218138615728212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: W4A4 quantization promises full utilization of INT4 Tensor Cores, yet group dequantization overhead on CUDA Cores has driven existing systems to mixed-precision fallbacks. We present the first systematic study of how intra-SM compute balance governs this bottleneck. Through controlled benchmarks across four GPUs from Ampere and Ada architectures, we identify the Tensor Cores to CUDA Cores throughput ratio ($ρ$) as the primary hardware indicator: the W4A4-g128 kernel yields $2.0$--$2.5\times$ speedup on RTX~3090 ($ρ=16$) yet degrades to $0.43$--$0.47\times$ on A100 ($ρ=64$) in compute-bond scenarios, establishing W4A4 viability as platform-dependent rather than universally infeasible. Guided by this finding, we build \textbf{APEX4}, which co-designs pure INT4 GEMM kernels with $ρ$-aware granularity adaptation to mitigate the CUDA Cores dequantization bottleneck. APEX4 achieves perplexity within 0.63 of FP16 on LLaMA-2-70B and outperforms W4Ax Atom-g128 by 4.0\%--4.4\% in zero-shot accuracy. Deployed as a drop-in replacement in unmodified vLLM, it delivers up to $1.66\times$ end-to-end speedup on L40S ($ρ=8$), and $1.78\times$ on RTX~3090 ($ρ=16$), $2.09\times$ on A40 ($ρ=16$), while recovering A100 ($ρ=64$) to $1.20$--$1.40\times$ via the mixed-granularity mode.
- Abstract(参考訳): W4A4量子化はINT4 Tensor Coresをフル活用することを約束するが、CUDA Coresのグループの分散化オーバーヘッドは、既存のシステムを混合精度のフォールバックに駆り立てた。
本稿では,SM内計算バランスがこのボトルネックをいかに支配するかについて,最初の系統的研究を行う。
W4A4-g128カーネルは、RTX~3090$ρ=16$でスピードアップするが、0.43$-$0.47\times$ on A100 ($ρ=64$)の計算ボンドシナリオでは、W4A4の可視性を普遍的に実現不可能ではなく、プラットフォーム依存として確立する。
この発見によってガイドされた \textbf{APEX4} は、純粋な INT4 GEMM カーネルを$ρ$-aware の粒度適応で設計し、CUDA Cores の量子化ボトルネックを軽減する。
APEX4 は LLaMA-2-70B 上の FP16 の 0.63 の範囲内でパープレキシティを達成し、0ショット精度で W4Ax Atom-g128 を 4.0 %--4.4 % 上回る。
未修正のvLLMのドロップイン代替としてデプロイされ、L40S(ρ=8$)で1.66\times$のエンドツーエンドスピードアップ、RTX~3090(ρ=16$)で1.78\times$のA40(ρ=16$)で2.09\times$のA40(ρ=64$)で、A100(ρ=64$)で1.20$-1.40\times$の混合粒度モードで回復する。
関連論文リスト
- A Controlled Study of Memory Hierarchy Transitions in Quantum Circuit Simulation on Apple M4 Pro Unified Memory Architecture [0.0]
状態ベクトル量子回路シミュレーションはメモリ帯域境界である。
Apple M4 Pro Unified Memory Architectureを使ってこの問題に対処する。
ピークストリーミング帯域幅は、連続しないメモリアクセスパターンのシミュレーションスピードアップを予測できないことを示す。
論文 参考訳(メタデータ) (2026-05-09T08:22:55Z) - DualTCN: A Physics-Constrained Temporal Convolutional Network for 2 Time-Domain Marine CSEM Inversion [1.2031796234206138]
DualTCNは、時間領域の海洋電磁制御源(MCSEM)過渡データを反転させるための最初のディープラーニングフレームワークである。
このフレームワークは、4つのアースモデルパラメータを回帰し、微分可能なソフトステップデコーダを用いてプロファイルを再構成する。
このフレームワークは、カリキュラムベースの振幅増大によるノイズに対する高い堅牢性を示し、平均$barR2$ 0.858 at $pm2%$ランダム振幅誤差を維持している。
論文 参考訳(メタデータ) (2026-05-06T14:58:17Z) - SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity [86.71343842875878]
NVIDIAの2:4 Sparse Coresは2倍のスループットを提供するが、厳しい50%のプルーニングを要求する。
Milder $(2N-2):2N$パターンは正確さを維持しながらハードウェアサポートを受けない。
Sparse Coreアクセラレーションをアンロックする最初のシステムであるSlideSparseを紹介する。
論文 参考訳(メタデータ) (2026-03-05T14:49:16Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。
本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。
我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文 参考訳(メタデータ) (2024-10-16T02:16:53Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。