論文の概要: Joint Structural Pruning and Mixed-Precision Quantization for LLM Compression
- arxiv url: http://arxiv.org/abs/2606.07819v1
- Date: Fri, 05 Jun 2026 20:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.46637
- Title: Joint Structural Pruning and Mixed-Precision Quantization for LLM Compression
- Title(参考訳): LLM圧縮のための複合構造解析と混合精度量子化
- Authors: Hoang-Loc La, Truong-Thanh Le, Amir Taherkordi, Phuong Hoai Ha,
- Abstract要約: 学習後量子化(PTQ)と構造化プルーニングは,メモリフットプリントと推論遅延を低減する技術として確立されている。
既存のPTQアプローチのほとんどは、ネットワークを通じてエラーがどのように蓄積され、伝播するかを見越して、層ごとの量子化誤差を最適化している。
我々は、これらの制限に2つの重要な方法で対処する、新しいエンドツーエンドフレームワークを紹介します。
- 参考スコア(独自算出の注目度): 1.4857783122641302
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, the efficiency of Large Language Models (LLMs) deployment has become a critical concern in practical applications. While post-training quantization (PTQ) and structural pruning are established techniques for reducing memory footprint and inference latency, most existing PTQ approaches optimize quantization errors on a per-layer basis, overlooking how errors accumulate and propagate through the network, often resulting in suboptimal solutions. Traditional pipelines also tend to apply pruning and quantization in isolation or sequentially, further compounding sub-optimality. We introduce a novel end-to-end framework that addresses these limitations in two key ways. First, we propose a novel mixed-precision PTQ strategy that directly minimizes global error propagation across the entire model, rather than isolating layer-wise errors. Building on this, we develop a novel joint optimization approach that simultaneously learns structural pruning decisions and mixed-precision quantization policies within a unified search space. Extensive experiments show that, at ultra-low precisions (1-3 bits), our quantization method reduces WikiText perplexity by up to 21% compared to state-of-the-art (SoTA) weight-activation quantization baselines. Against leading weight-only quantization methods, it achieves up to 59% and 85% lower perplexity on WikiText and C4, respectively. Compared to the SoTA joint pruning-and-quantization techniques, our proposed method delivers superior perplexity and reasoning performance at ultra-low bits.
- Abstract(参考訳): 近年、LLM(Large Language Models)デプロイメントの効率性は、実用アプリケーションにおいて重要な関心事となっている。
トレーニング後の量子化(PTQ)と構造的プルーニングはメモリフットプリントと推論遅延を低減させる技術が確立されているが、既存のPTQアプローチのほとんどは、エラーがネットワークを通してどのように蓄積され、伝播するかを見越して、層ごとの量子化誤差を最適化し、しばしば最適解をもたらす。
従来のパイプラインはまた、分離または逐次的にプルーニングと量子化を適用し、さらにサブ最適性を複雑にする傾向がある。
我々は、これらの制限に2つの重要な方法で対処する、新しいエンドツーエンドフレームワークを紹介します。
まず、階層的なエラーを分離するのではなく、モデル全体のグローバルなエラー伝播を最小化する、新しい混合精度PTQ戦略を提案する。
そこで我々は,構造的プルーニング決定と混合精度量子化ポリシーを統合検索空間内で同時に学習する,新しい共同最適化手法を開発した。
実験により,超低精度(1~3ビット)でWikiTextのパープレキシティを最大21%低減することを確認した。
重量のみの量子化手法に対して、WikiTextとC4では最大59%と85%のパープレキシティが達成されている。
提案手法は,SoTAジョイントプルーニング/量子化技術と比較して,超低ビットでのパープレキシティと推論性能に優れる。
関連論文リスト
- RUQuant: Towards Refining Uniform Quantization for Large Language Models [17.258420059228808]
ポストトレーニング量子化(PTQ)は、再トレーニングを必要とせずにモデルを圧縮することで、実用的なソリューションとして登場した。
既存の方法は、アクティベーション分布の非一様性により、かなりの精度の劣化に悩まされることが多い。
本研究では,ロイド-マックス最適条件に基づく理論的な観点から,活性化量子化問題を再考する。
論文 参考訳(メタデータ) (2026-04-05T08:04:39Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - A Comprehensive Evaluation on Quantization Techniques for Large Language Models [46.75040730001041]
後学習量子化(PTQ)は、大規模言語モデル(LLM)のメモリフットプリントと計算オーバーヘッドを大幅に削減する。
我々は、最先端の手法を幅広く検討し、同じ条件下で総合的な評価を行い、公正な比較を行う。
最新のMXFP4およびNVFP4データフォーマットとその性能評価を行った。
論文 参考訳(メタデータ) (2025-07-23T11:21:21Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization [0.0]
層ワイドPTQは大規模言語モデル(LLM)を圧縮するための有望な手法である
この領域の最近の進歩は飽和しており、中核的な制限を再検討し、さらなる改善を検討する必要性を浮き彫りにしている。
本稿では,量子化エラーを明示的に伝播し,蓄積したエラーを補償することにより,レイヤワイズPTQを向上させる,汎用的で軽量でスケーラブルなフレームワークである量子化エラー伝播(QEP)を提案する。
論文 参考訳(メタデータ) (2025-04-13T15:56:00Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。