論文の概要: UniSVQ: 2-bit Unified Scalar-Vector Quantization
- arxiv url: http://arxiv.org/abs/2606.10520v1
- Date: Tue, 09 Jun 2026 07:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.373149
- Title: UniSVQ: 2-bit Unified Scalar-Vector Quantization
- Title(参考訳): UniSVQ: 2ビット統一スカラベクター量子化
- Authors: Haoyu Wang, Haiyan Zhao, Xingyu Yu, Zhangyang Yao, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 2ビットレベルのトレーニング後の量子化により、大規模言語モデルに対する低コストなデプロイメントと推論アクセラレーションが可能になる。
整数格子のアフィン変換としてコードワードをパラメータ化することでスカラーおよびベクトル量子化をブリッジする2ビット統一量子化フレームワークUniSVQを提案する。
- 参考スコア(独自算出の注目度): 48.190936990215384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization at the 2-bit level enables low-cost deployment and inference acceleration for large language models (LLMs). Scalar quantization (SQ) and vector quantization (VQ) are two primary quantization methods, however, the former suffers from significant performance degradation, and the latter incurs computational and storage overhead. We propose UniSVQ, a unified 2-bit quantization framework that bridges scalar and vector quantization by parameterizing codewords as an affine transform of integer lattices. This structure preserves compatibility with optimized integer kernels while retaining much of VQ's flexibility. We further introduce a data-driven block-wise fine-tuning strategy to directly minimize quantization reconstruction error. Extensive experiments across multiple LLM families and zero-shot benchmarks demonstrate that UniSVQ consistently outperforms state-of-the-art SQ methods and achieves performance comparable to advanced VQ methods, while providing higher inference throughput.
- Abstract(参考訳): 2ビットレベルのトレーニング後の量子化は、大規模言語モデル(LLM)に対する低コストなデプロイメントと推論の高速化を可能にする。
スカラー量子化(SQ)とベクトル量子化(VQ)は2つの主要な量子化法であるが、前者は大きな性能劣化に悩まされ、後者は計算と記憶のオーバーヘッドを発生させる。
整数格子のアフィン変換としてコードワードをパラメータ化することでスカラーおよびベクトル量子化をブリッジする2ビット統一量子化フレームワークUniSVQを提案する。
この構造は、最適化された整数カーネルとの互換性を維持しながら、VQの柔軟性の多くを維持している。
さらに、量子化再構成誤差を直接最小化するデータ駆動ブロックワイズ微調整戦略を導入する。
複数のLLMファミリーとゼロショットベンチマークにわたる大規模な実験は、UniSVQが常に最先端のSQメソッドより優れ、高度なVQメソッドに匹敵する性能を実現し、より高い推論スループットを提供することを示した。
関連論文リスト
- KBVQ-MoE: KLT-guided SVD with Bias-Corrected Vector Quantization for MoE Large Language Models [13.773876289947323]
ベクトル量子化(VQ)は、大規模言語モデル(LLM)における超低ビット圧縮に有望なアプローチを提供する
KBVQ-MoE は,MoE ベースの LLM の超低ビット量子化を実現する新しい VQ フレームワークである。
さまざまなMOE LLMの実験により、KBVQ-MoEは既存の量子化法よりも精度がかなり高いことを示した。
論文 参考訳(メタデータ) (2026-01-30T06:57:17Z) - R2Q: Towards Robust 2-Bit Large Language Models via Residual Refinement Quantization [20.861971198175674]
Residual Refinement Quantization (R2Q)は、2つのシーケンシャルな1ビットサブ量子化に分解する新しい2ビット量子化フレームワークである。
R2Qは、細粒度と粗粒度の両方で既存の2ビット量子化法より一貫して優れている。
論文 参考訳(メタデータ) (2025-11-21T12:39:44Z) - Robust Residual Finite Scalar Quantization for Neural Compression [46.574899938569125]
有限スカラー量子化(FSQ)は、簡易なトレーニングを提供するが、多段階設定での残留等級劣化に悩まされる。
本稿では,2つの新しい条件付け手法を用いて,この基本的な制限に対処するロバスト残留有限スカラー量子化(RFSQ)を提案する。
RFSQの有効性と一般化性を示す。
論文 参考訳(メタデータ) (2025-08-20T15:18:59Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation [54.2574228021317]
XQ-GANは画像再構成と生成の両方のために設計された画像トークン化フレームワークである。
我々のフレームワークは、ベクトル量子化(VQ)、残留量子化(RQ)、マルチスケール残留量子化(MSVQ)、製品量子化(PQ)、バイナリ球面量子化(BSQ)など、最先端の量子化技術を統合する。
標準の ImageNet 256x256 ベンチマークでは,本モデルが MAGVIT-v2 (0.9 rFID) と VAR (0.9 rFID) を大幅に上回り,0.64 の rFID を達成した。
論文 参考訳(メタデータ) (2024-12-02T17:58:06Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Distribution-Flexible Subset Quantization for Post-Quantizing
Super-Resolution Networks [68.83451203841624]
本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。
DFSQは活性化のチャネルワイド正規化を行い、分布フレキシブルなサブセット量子化(SQ)を適用する
6ビットの量子化と8ビットの量子化では完全精度に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか生じない。
論文 参考訳(メタデータ) (2023-05-10T04:19:11Z) - Ansatz-Independent Variational Quantum Classifier [0.0]
可変量子分類器 (VQC) がよく知られたカーネル法に収まることを示す。
また、与えられたユニタリ演算子に対して効率的な量子回路を設計するための変分回路実現法(VCR)を提案する。
論文 参考訳(メタデータ) (2021-02-02T21:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。