論文の概要: SPEAR: A System for Post-Quantization Error-Adaptive Recovery Enabling Efficient Low-Bit LLM Serving
- arxiv url: http://arxiv.org/abs/2606.11244v1
- Date: Thu, 04 Jun 2026 22:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.077296
- Title: SPEAR: A System for Post-Quantization Error-Adaptive Recovery Enabling Efficient Low-Bit LLM Serving
- Title(参考訳): SPEAR: 効率的な低ビットLDMサービングを実現する量子化後エラー適応リカバリシステム
- Authors: Hongyuan Liu, Yawei Li, Zhiqiang Que, Qinli Yang, Junming Shao, Guosheng Hu,
- Abstract要約: 本稿では,低ビットLLM機能を改善するポスト量子化誤り適応リカバリシステムSPEARを提案する。
SPEARは、トーケンゲートごとに軽量なエラー補償器(EC)を導入し、CKA誘導エントロピー認識診断によって識別される最もエラーに敏感な層にのみ配置する。
我々は,SPEARがW4とFP16の難易度ギャップの56-75%を回復し,1%未満のモデルメモリオーバヘッドを付加し,広く使用されている4ビットサービスデプロイメントに匹敵するレイテンシを維持することを示した。
- 参考スコア(独自算出の注目度): 26.96887030437247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient large language model (LLM) serving is increasingly constrained by deployment cost. Quantization is a key technique for reducing serving cost, yet even state-of-the-art 4-bit quantizers exhibit a noticeable quality gap from FP16, particularly for smaller models where low-bit serving is most beneficial. We identify a fundamental cause of this gap: quantization error is highly input-dependent and varies substantially across tokens, while existing post-quantization compensation methods are static and apply identical corrections to all inputs. As a result, easy tokens are over-corrected while hard tokens remain under-corrected. We present SPEAR, a system for post-quantization error-adaptive recovery that improves low-bit LLM serving. SPEAR introduces lightweight Error Compensators (ECs) modulated by per-token gates and places them only at the most error-sensitive layers identified through a CKA-guided entropy-aware diagnostic. This focuses a small parameter budget where it is most effective. Efficient deployment of ECs presents several systems challenges, including additional computation, tensor-parallel synchronization caused by input-dependent gating, and latency instability across configurations. SPEAR addresses these issues through adaptive kernel-fusion dispatch, combining an epilogue-integrated peer-reduction kernel with P2P dual-write to fuse the post-EC computation into low-bit GEMMs, and an SLO-constrained EC-aware scheduler for predictable serving performance. Across challenging per-channel quantization settings, SPEAR recovers 56-75% of the perplexity gap between W4 and FP16 while adding less than 1% model memory overhead and maintaining latency comparable to a widely used 4-bit serving deployment.
- Abstract(参考訳): 効率的な大規模言語モデル(LLM)の提供は、デプロイメントコストによってますます制限される。
量子化はサービスコストを削減するための重要な手法であるが、最先端の4ビット量子化器でさえ、特に低ビットサービスが最も有用である小さなモデルにおいて、FP16と顕著な品質差を示す。
量子化誤差は高い入力依存であり、トークン間で大きく異なるが、既存の量子化後補償法は静的であり、全ての入力に同一の補正を適用する。
その結果、簡単なトークンは過度に修正され、ハードトークンは過度に修正される。
本稿では,低ビットLLM機能を改善するポスト量子化誤り適応リカバリシステムSPEARを提案する。
SPEARは、トーケンゲートごとに変調された軽量なエラー補償器(EC)を導入し、CKA誘導エントロピー認識診断によって識別される最もエラーに敏感な層にのみ配置する。
これは、最も効果的である小さなパラメータ予算に焦点を当てます。
ECの効率的なデプロイには、追加の計算、入力依存ゲーティングによるテンソル並列同期、構成間のレイテンシ不安定など、いくつかのシステム課題がある。
SPEARは、エピローグ統合されたピア還元カーネルとP2Pデュアルライトを組み合わせて、ポストEC計算を低ビットGEMMに融合させ、SLO制約のEC-awareスケジューラで予測可能なサービス性能を実現する。
SPEARは、チャネルごとの量子化設定に挑戦する一方で、W4とFP16の難易度ギャップの56-75%を回復し、1%以下のモデルメモリオーバーヘッドを追加し、広く使用されている4ビットサービスデプロイメントに匹敵するレイテンシを維持する。
関連論文リスト
- SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization [19.022444007775896]
NVFP4は、最近、大規模言語モデルの効率的な4ビットマイクロスケーリングフォーマットとして登場した。
既存の方法は、しばしば、柔軟性のないスケールの選択と、量子化と量子化のスケールの併用による、最適以下の性能をもたらす。
NVFP4量子化の精度を向上する新しい学習後量子化フレームワークであるSOAR(Scale Optimization for Accurate Reconstruction)を提案する。
論文 参考訳(メタデータ) (2026-05-12T15:13:18Z) - SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization [7.372706701787234]
学習後量子化(PTQ)は,大規模言語モデルを効率的に展開するための一般的な手法として登場した。
SERQは1つの低ランク補償行列を用いる低ビットLLM推論のためのサリエンシ対応誤差再構成法である。
論文 参考訳(メタデータ) (2026-03-09T10:04:12Z) - QTALE: Quantization-Robust Token-Adaptive Layer Execution for LLMs [0.0]
大規模言語モデル(LLM)は、かなりの計算資源とメモリ資源を必要とする。
トークン適応型実行と量子化をシームレスに統合する新しいフレームワークであるQTALEを提案する。
論文 参考訳(メタデータ) (2026-02-11T02:19:11Z) - AMS-QUANT: Adaptive Mantissa Sharing for Floating-point Quantization [7.413057271242686]
量子化、特に浮動小数点量子化は、大きな言語モデル(LLM)推論を高速化できることが知られている。
整数ビット幅から非整数ビット幅への浮動小数点量子化探索を探索するAMS-Quantを提案する。
AMS-Quant はモデルを FP-5.33-e2m3 と FP4.25-e2m2 に量子化し、FP16 の推論よりもデコードを大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2025-10-16T15:37:23Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Fast Flux-Activated Leakage Reduction for Superconducting Quantum
Circuits [84.60542868688235]
量子ビット実装のマルチレベル構造から生じる計算部分空間から漏れること。
パラメトリックフラックス変調を用いた超伝導量子ビットの資源効率向上のためのユニバーサルリーク低減ユニットを提案する。
繰り返し重み付け安定化器測定におけるリーク低減ユニットの使用により,検出されたエラーの総数を,スケーラブルな方法で削減できることを実証した。
論文 参考訳(メタデータ) (2023-09-13T16:21:32Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。