論文の概要: Optimal Post-Training Quantization Scales and Where to Find Them
- arxiv url: http://arxiv.org/abs/2606.10890v1
- Date: Tue, 09 Jun 2026 14:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.537066
- Title: Optimal Post-Training Quantization Scales and Where to Find Them
- Title(参考訳): 学習後の最適量子化尺度とその発見方法
- Authors: Juan Amboage, Pablo Monteagudo-Lago, Ian Colbert, Giuseppe Franco, Nicholas Fraser,
- Abstract要約: ポストトレーニング量子化(PTQ)は、重みを低表現にマッピングすることで、大きな言語モデルを圧縮する。
本稿では, チャネルワイド重み計算アルゴリズムであるPiSOを, ラウンド・ツー・アネレスト量子化の下で正確に, 効率的に計算する。
- 参考スコア(独自算出の注目度): 1.3048920509133808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) compresses large language models by mapping weights to low-bit representations. The scaling factor that defines the quantization grid is typically chosen using simple, data-free heuristics. In this work, we present PiSO (Piecewise Scale Optimization), an algorithm that leverages calibration data to compute the optimal channel-wise weight scales exactly and efficiently under round-to-nearest quantization. PiSO partitions the scale search space into finitely many intervals on which the objective admits a closed-form minimizer. We extend PiSO to group-wise quantization via principled heuristics and propose effective strategies for interleaving scale optimization with error correction. Experiments on Llama and Qwen models across multiple model sizes and target weight bit-widths demonstrate consistent improvements in perplexity and downstream zero-shot accuracy, both standalone and combined with error correction. In particular, we observe increased benefits as the target bit-width narrows and quantization becomes more challenging.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、重みを低ビット表現にマッピングすることで、大きな言語モデルを圧縮する。
量子化グリッドを定義するスケーリング係数は通常、単純でデータフリーなヒューリスティックを使って選択される。
本研究では, キャリブレーションデータを利用して, ラウンド・ツー・アネレスト量子化の下で最適なチャネルワイド・スケールを正確に, 効率的に計算するアルゴリズムであるPiSO(Piecewise Scale Optimization)を提案する。
PiSO はスケール探索空間を有限個の区間に分割し、対象は閉形式最小化器を許容する。
我々は,PiSOを原理的ヒューリスティックスによるグループワイド量子化に拡張し,誤差補正によるスケール最適化を効果的に行う方法を提案する。
複数のモデルサイズと目標ビット幅にわたるLlamaモデルとQwenモデルの実験は、スタンドアロンとエラー訂正の両方で、複雑度と下流ゼロショット精度が一貫した改善を示した。
特に、ターゲットビット幅の狭さと量子化がより困難になるにつれて、利益が増大するのを観察する。
関連論文リスト
- ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference [13.283581083797484]
後学習量子化(PTQ)は、Large Language Models(LLM)の重みを低精度表現に圧縮し、メモリフットプリントを減らし、推論を加速する。
重みとアクティベーションにおける外れ値の存在は、しばしば大きな量子化誤差と深刻な精度低下をもたらす。
Pairwise Rotation Quantization (ParoQuant) を提案する。
ParoQuantは平均2.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-11-13T18:59:24Z) - Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment [15.802372921412198]
我々は,大言語モデル (LLM) の重み付けを,校正データはほとんどあるいは全く使わずに定量化する,PTQ(height-only post-training Quantization)について検討した。
まず、与えられたビット予算下でのガウス化重みに対する情報理論的に最適なビット割り当てを導出し、ガウスの歪み率境界に近づく微細な分数ビット量子化器が、ほぼ最適量子化性能を達成するために不可欠であることを明らかにした。
論文 参考訳(メタデータ) (2025-09-24T15:10:44Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。