論文の概要: On the Expressive Power of Weight Quantization in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.22249v1
- Date: Sat, 20 Jun 2026 22:22:26 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 14:59:16.105174
- Title: On the Expressive Power of Weight Quantization in Large Language Models
- Title(参考訳): 大規模言語モデルにおける重み量子化の表現力について
- Authors: Shao-Qun Zhang,
- Abstract要約: 量子化ビット数に対する大規模言語モデルの表現能力を理論的に検討する。
重み量子化が劣化を引き起こすことを確認し、重み量子化モデルの表現能力は、量子化ビット数が減少するにつれて低下する。
- 参考スコア(独自算出の注目度): 8.00212858470606
- License:
- Abstract: In recent years, weight quantization that encodes the learnable parameters of large language models in an $n$-bit format has garnered significant attention due to its potential for model compression and inference acceleration. Many practical techniques have been developed; however, the theoretical understanding of many aspects, especially the approximation and degradation of expressive power as the number of quantization bits decreases, remains unclear. In this paper, we provide a theoretical investigation into the expressive capability of large language models relative to the number of quantization bits. We argue that 1.58-bit is the limiting precision for weight quantization by establishing the universal approximation and expressive collapse properties of weight-quantized models with respect to the number of quantization bits. Additionally, we confirm that weight quantization leads to expressive degradation, in which the expressive capacity of weight-quantized models degrades polynomially as the number of quantization bits decreases. These theoretical findings provide a solid foundation for advancing weight quantization in the context of scaling laws and shed insights for future research in model compression and inference acceleration.
- Abstract(参考訳): 近年,大規模言語モデルの学習可能なパラメータを$n$-bit形式で符号化する重み量子化が注目されている。
多くの実用技術が開発されてきたが、多くの側面、特に量子化ビットの数が減少するにつれて表現力の近似と劣化に関する理論的理解はいまだに不明である。
本稿では,量子化ビット数に対する大規模言語モデルの表現能力に関する理論的検討を行う。
我々は、ウェイト量子化モデルの普遍近似と表現的崩壊特性を量子化ビット数に関して確立することにより、ウェイト量子化の制限精度を1.58ビットとする。
さらに、重み量子化が表現的劣化を引き起こすことを確認し、重み量子化モデルの表現能力は、量子化ビット数が減少するにつれて多項式的に低下する。
これらの理論的な発見は、スケーリング法則の文脈における重み量子化の進歩のための確かな基盤を提供し、モデル圧縮と推論加速に関する将来の研究のための洞察を隠蔽する。
関連論文リスト
- Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。
我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。
我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文 参考訳(メタデータ) (2025-05-08T13:26:19Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - Compression Scaling Laws:Unifying Sparsity and Quantization [65.05818215339498]
プレトレーニング中の大規模言語モデル(LLM)のスケーリング挙動に異なる圧縮手法がどう影響するかを検討する。
重みのみの量子化は強力なパラメータ効率乗算器を実現する一方で、重みとアクティベーションの完全な量子化は低ビット幅でのリターンの低下を示す。
以上の結果から,異なる圧縮手法を共通のスケーリング法枠組みの下で統一できることが示唆された。
論文 参考訳(メタデータ) (2025-02-23T04:47:36Z) - CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution [59.91470739501034]
画像超解像のための条件数に基づく低ビットポストトレーニング量子化であるCondiQuantを提案する。
CondiQuantは、計算オーバーヘッドを伴わずに、既存の最先端のポストトレーニング量子化手法よりも精度が高いことを示す。
論文 参考訳(メタデータ) (2025-02-21T14:04:30Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - When Quantization Affects Confidence of Large Language Models? [4.338589334157708]
GPTQから4ビットへの変換は,言語モデルによって異なる影響で,真のラベルに対する信頼度を低下させることを示す。
本稿では,信頼度に基づく量子化損失の説明を行い,まず,完全モデルが信頼度が低いサンプルに対して,量子化が不均等に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-01T16:58:28Z) - Effect of Weight Quantization on Learning Models by Typical Case
Analysis [6.9060054915724]
最近のデータ分析スケールの急増は、計算リソースの要求を大幅に増加させた。
量子化は、限られた計算資源を持つデバイスに大規模なモデルをデプロイするのに不可欠である。
論文 参考訳(メタデータ) (2024-01-30T18:58:46Z) - OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and
Inference of Large Language Models [15.461748851931588]
outlier-aware weight Quantization (OWQ)メソッドは、低精度表現によって大きな言語モデルのフットプリントを最小化する。
OWQは、量子化に敏感な構造的重みの小さなサブセットを優先順位付けし、それらを高精度に保存し、残りの高密度重みに高度に調整された量子化を適用する。
OWQを用いた3.1ビットモデルは、OPTQによって最適化された4ビットモデルと互換性があることを示した。
論文 参考訳(メタデータ) (2023-06-04T06:33:13Z) - Ternary Quantization: A Survey [12.90416661059601]
深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。
3次量子化の進化を概観し、既存の3次量子化法との関係について検討する。
論文 参考訳(メタデータ) (2023-03-02T03:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。