論文の概要: HyperQuant: A Rate-Distortion-Optimal Quantization Pipeline for Large Language and Diffusion Models
- arxiv url: http://arxiv.org/abs/2606.23406v1
- Date: Mon, 22 Jun 2026 14:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 19:11:46.714829
- Title: HyperQuant: A Rate-Distortion-Optimal Quantization Pipeline for Large Language and Diffusion Models
- Title(参考訳): HyperQuant: 大規模言語と拡散モデルのためのレート歪み最適量子化パイプライン
- Authors: Yuval Domb, Hadar Sackstein, Tomer Solberg,
- Abstract要約: HyperQuantは、大きな言語と拡散トランスフォーマーの重みとKVキャッシュのための、トレーニング後の統一的な量子化パイプラインである。
最近のHIGGS方式は、重量でスカラー(bps)あたり3ビットから5ビットに上回り、KV量子化でTurboQuantとOCTOPUSを1.7bpsに上回ります。
線形重み 3.9x と KV キャッシュ 3.79x をほぼロスレス品質で圧縮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present HyperQuant (Hadamard, optimallY Packing, Entropy Rice-coding), a unified post-training quantization pipeline for the weights and the KV cache of large language and diffusion transformers. Across a suite of self-contained experiments (Table 1), HyperQuant outperforms the recent HIGGS scheme at every operating point from 3 to 5 bits per scalar (bps) on weights, and beats both TurboQuant and OCTOPUS on KV quantization down to 1.7 bps. Beyond the LLM setting, HyperQuant quantizes the 19B-parameter LTX-2 DiT video model with no observable per-frame artifacts. End-to-end on an H100 at 4 bps, HyperQuant compresses the linear weights ~3.9x and the KV cache ~3.79x at near-lossless quality. HyperQuant combines four known ideas into a single construction: (i) a per-tile Randomized Hadamard Transform that makes the per-coordinate distribution of weights and activations approximately Gaussian; (ii) quantization to a low-dimensional optimal lattice (E8, D4, A2, or Z); (iii) lossless bit-stripping and near-entropy-optimal variable-length Rice coding of the lattice indices; and (iv) bias-correction methods for the KV cache that keep the reconstruction unbiased under inner products, preserving attention semantics. We further integrate the pipeline with 8-bit and 4-bit Tensor-Core MMA paths (fp8-e4m3, int8, nvfp4, mxfp4), and find that int8 beats fp8 on the post-RHT lattice output. Project page: https://moonmath.ai/hyperquant/
- Abstract(参考訳): 本稿では,重みの学習後量子化パイプラインであるHyperQuant(Hadamard,OptimicalY Packing,Entropy Rice-coding)と,大規模言語と拡散変換器のKVキャッシュについて述べる。
一連の自己完結実験(Table 1)において、HyperQuantは最近のHIGGSスキームを重量で3ビットから5ビット毎のスカラー(bps)に上回り、KV量子化でTurboQuantとOCTOPUSを1.7bpsまで上回ります。
LLM設定の他に、HyperQuantは、19BパラメータのLTX-2 DiTビデオモデルを、観測可能なフレーム単位のアーティファクトなしで量子化する。
4bpsのH100では、HyperQuantは線形重み ~3.9x と KV キャッシュ ~3.79x をほぼ粗い品質で圧縮する。
HyperQuantは4つの既知のアイデアを1つの構成にまとめる。
i) ウェイトと約ガウスの活性化の座標分布を調整したタイルごとのランダム化アダマール変換
(ii)低次元最適格子(E8, D4, A2, Z)への量子化
三 格子指標の損失のないビットストリッピング及び近エントロピー最適可変長米符号化
(4)KVキャッシュのバイアス補正手法は、内部製品の下での復元を未バイアスに保ち、注意の意味を保っている。
さらに、パイプラインを8ビット、4ビットのTensor-Core MMAパス(fp8-e4m3, int8, nvfp4, mxfp4)と統合し、int8が後RHT格子出力でfp8を上回ります。
プロジェクトページ:https://moonmath.ai/hyperquant/
関連論文リスト
- PolarQuant: Optimal Gaussian Weight Quantization via Hadamard Rotation for LLM Compression [0.0]
PolarQuantは、大規模言語モデルのトレーニング後の重み量子化手法である。
ニューラルネットワークの重みの分布構造を利用して、ほぼロスレス圧縮を実現する。
論文 参考訳(メタデータ) (2026-03-30T23:33:28Z) - ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing [0.0]
我々は,TurboQuant(TQ)を統合したLLMのための新しい3ビット重み量子化フォーマットであるITQ3_S(Interleaved Ternary Quantization -- Specialized)を提案する。
従来の3ビット法では、重み付き重み分布とチャネル間外周による精度の低下が見られた。
ITQ3_Sは、量子化の前にFWHTを介して重み空間を前回転させ、ベクトルにエネルギーを分散させ、ガウス近傍の分布を誘導する。
論文 参考訳(メタデータ) (2026-03-30T00:03:22Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。