Fugu-MT 論文翻訳(概要): LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization

論文の概要: LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization

arxiv url: http://arxiv.org/abs/2606.10531v1
Date: Tue, 09 Jun 2026 08:02:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.379404
Title: LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization
Title（参考訳）: LC-QAT:線形制約ベクトル量子化によるLCM用データ効率2ビットQAT
Authors: Haoyu Wang, Xingyu Yu, Haiyan Zhao, Fengxiang Wang, Xu Han,
Abstract要約: 極低ビット大言語モデル(LLM)には量子化対応トレーニング(QAT)が不可欠である本稿では,離散ベクトル上のアフィンマッピングを学習することにより,量子化重みを表す2ビットのVQ-QATフレームワークであるLC-QATを提案する。 LC-QATは、トレーニングデータの0.1%-10%しか使用せず、最先端のQAT手法よりも一貫して優れていることを示す。
参考スコア（独自算出の注目度）: 9.37026660976194
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantization-aware training (QAT) is essential for extremely low-bit large language models (LLMs). Current QAT methods are mainly based on scalar quantization (SQ), which enables efficient optimization but suffers from severe performance degradation at 2-bit precision. On the other hand, vector quantization (VQ) provides substantially higher representational capacity, but its discrete codebook lookup prevents end-to-end training. We propose LC-QAT, a 2-bit weight-only VQ-QAT framework that represents quantized weights via a learned affine mapping over discrete vectors, which yields a high-quality PTQ initialization and enables fully differentiable end-to-end optimization without explicit codebook lookup in the training forward pass. This strong post-training initialization makes LC-QAT highly data-efficient. Experiments across diverse LLMs demonstrate that LC-QAT consistently outperforms state-of-the-art QAT methods while using only 0.1%--10% of the training data. Our results establish LC-QAT as a practical and scalable solution for extreme low-bit model deployment.
Abstract（参考訳）: 量子化対応トレーニング(QAT)は、超低ビット大言語モデル(LLM)に必須である。現在のQAT法は主にスカラー量子化(SQ)に基づいており、効率よく最適化できるが、2ビット精度での大幅な性能劣化に悩まされている。一方、ベクトル量子化(VQ)は表現能力を大幅に向上させるが、その離散的なコードブックルックアップはエンドツーエンドのトレーニングを妨げている。 LC-QATは2ビットのウェイトオンリーVQ-QATフレームワークで、離散ベクトル上の学習アフィンマッピングによって量子化重みを表現し、高品質のPTQ初期化を実現し、トレーニングフォワードパスにおける明示的なコードブックルックアップを伴わずに、完全に微分可能なエンドツーエンド最適化を実現する。この訓練後の強力な初期化により、LC-QATはデータ効率が高い。 LC-QATはトレーニングデータの0.1%-10%しか使用せず、最先端のQAT法よりも一貫して優れていた。我々はLC-QATを極低ビットモデル展開のための実用的でスケーラブルなソリューションとして確立した。

論文の概要: LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization

関連論文リスト