論文の概要: LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization
- arxiv url: http://arxiv.org/abs/2606.10531v1
- Date: Tue, 09 Jun 2026 08:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.379404
- Title: LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization
- Title(参考訳): LC-QAT:線形制約ベクトル量子化によるLCM用データ効率2ビットQAT
- Authors: Haoyu Wang, Xingyu Yu, Haiyan Zhao, Fengxiang Wang, Xu Han,
- Abstract要約: 極低ビット大言語モデル(LLM)には量子化対応トレーニング(QAT)が不可欠である
本稿では,離散ベクトル上のアフィンマッピングを学習することにより,量子化重みを表す2ビットのVQ-QATフレームワークであるLC-QATを提案する。
LC-QATは、トレーニングデータの0.1%-10%しか使用せず、最先端のQAT手法よりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 9.37026660976194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization-aware training (QAT) is essential for extremely low-bit large language models (LLMs). Current QAT methods are mainly based on scalar quantization (SQ), which enables efficient optimization but suffers from severe performance degradation at 2-bit precision. On the other hand, vector quantization (VQ) provides substantially higher representational capacity, but its discrete codebook lookup prevents end-to-end training. We propose LC-QAT, a 2-bit weight-only VQ-QAT framework that represents quantized weights via a learned affine mapping over discrete vectors, which yields a high-quality PTQ initialization and enables fully differentiable end-to-end optimization without explicit codebook lookup in the training forward pass. This strong post-training initialization makes LC-QAT highly data-efficient. Experiments across diverse LLMs demonstrate that LC-QAT consistently outperforms state-of-the-art QAT methods while using only 0.1%--10% of the training data. Our results establish LC-QAT as a practical and scalable solution for extreme low-bit model deployment.
- Abstract(参考訳): 量子化対応トレーニング(QAT)は、超低ビット大言語モデル(LLM)に必須である。
現在のQAT法は主にスカラー量子化(SQ)に基づいており、効率よく最適化できるが、2ビット精度での大幅な性能劣化に悩まされている。
一方、ベクトル量子化(VQ)は表現能力を大幅に向上させるが、その離散的なコードブックルックアップはエンドツーエンドのトレーニングを妨げている。
LC-QATは2ビットのウェイトオンリーVQ-QATフレームワークで、離散ベクトル上の学習アフィンマッピングによって量子化重みを表現し、高品質のPTQ初期化を実現し、トレーニングフォワードパスにおける明示的なコードブックルックアップを伴わずに、完全に微分可能なエンドツーエンド最適化を実現する。
この訓練後の強力な初期化により、LC-QATはデータ効率が高い。
LC-QATはトレーニングデータの0.1%-10%しか使用せず、最先端のQAT法よりも一貫して優れていた。
我々はLC-QATを極低ビットモデル展開のための実用的でスケーラブルなソリューションとして確立した。
関連論文リスト
- What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文 参考訳(メタデータ) (2024-06-10T15:44:22Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。