論文の概要: Multi-Bitwidth Quantization for LLMs Using Additive Codebooks
- arxiv url: http://arxiv.org/abs/2606.12876v1
- Date: Thu, 11 Jun 2026 04:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.57212
- Title: Multi-Bitwidth Quantization for LLMs Using Additive Codebooks
- Title(参考訳): 付加コードブックを用いたLLMのマルチビット量子化
- Authors: Liza Babaoglu, Shuangyi Chen, Ashish Khisti,
- Abstract要約: 大規模言語モデル(LLM)は、リソース制約の異なる異種ハードウェアに徐々に展開されている。
本研究では,1つのトレーニングモデルからLLM重みの推測時間精度制御を可能にする,新しい学習後量子化フレームワークであるDrop-by-Dropを提案する。
- 参考スコア(独自算出の注目度): 12.237109162791091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed across heterogeneous hardware with varying resource constraints, the ability to adaptively manage the trade-off between performance and efficiency without retraining is critical. We propose Drop-by-Drop, a novel multi-bitwidth post-training quantization framework that enables inference-time precision control over LLM weights from a single trained model. Our method is theoretically grounded in information theory and successive refinement. We establish that LLM weights, which commonly follow a Gaussian distribution, can be optimally reconstructed with increasing fidelity as additional bits are incorporated, under a weighted mean squared error distortion motivated by LLM loss functions. To realize this in practice, Drop-by-Drop incorporates Matryoshka-style supervision into the loss function, exploiting the structure of additive codebooks. Drop-by-Drop produces a single model where ordered subsets of codebooks yield accurate partial reconstructions at each precision level. This approach significantly reduces storage and memory overhead by allowing a single checkpoint to serve multiple bitwidths, while maintaining competitive perplexity and accuracy across major architectures, such as Qwen, LLaMA, Gemma, and Mistral.
- Abstract(参考訳): 大規模言語モデル(LLM)は、リソース制約の異なる異種ハードウェアに徐々に展開されるため、再トレーニングなしにパフォーマンスと効率のトレードオフを適応的に管理する能力は不可欠である。
本研究では,1つのトレーニングモデルからLLM重みの推測時間精度制御を可能にする,新しい学習後量子化フレームワークであるDrop-by-Dropを提案する。
本手法は情報理論と逐次改良に基礎を置いている。
ガウス分布によく従うLLM重みは、LLM損失関数によって動機付けられた重み付き平均2乗誤差歪みの下で、加算ビットが組み込まれるにつれて、忠実度の増加とともに最適に再構成できることを示す。
これを実現するために、Drop-by-DropはMatryoshkaスタイルの監視機能を損失関数に組み込み、付加的なコードブックの構造を利用する。
Drop-by-Dropは、コードブックの順序付けられたサブセットがそれぞれの精度レベルで正確な部分的再構成をもたらす単一のモデルを生成する。
このアプローチは、Qwen、LLaMA、Gemma、Mistralといった主要なアーキテクチャで競合するパープレクティリティと精度を維持しながら、単一のチェックポイントを複数のビット幅で提供することによって、ストレージとメモリオーバーヘッドを大幅に削減する。
関連論文リスト
- WINDQuant: Weight-Informed Neural Decision-Making for Global Mixed-Precision LLM Quantization [40.655670203062805]
WINDQuantは超低ビットLLM量子化のための強化学習に基づくアロケーションコントローラである。
グローバルストレージ予算の下で、ビット幅と量子化処理をきめ細かいカラムチャンクに割り当てる方法を学ぶ。
LLaMAモデルを用いた実験により、WINDQuantは超低ビット設定で競合性能を達成することが示された。
論文 参考訳(メタデータ) (2026-05-26T07:46:13Z) - Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - SDQ-LLM: Sigma-Delta Quantization for 1-bit LLMs of any size [5.229694155440675]
大規模言語モデル(LLM)は、計算とメモリの問題に直面する。
SDQ-LLM: Sigma-Delta Quantization for 1-bit LLMs of any size。
SDQ-LLMの特徴は、Over-Sampling Ratio (OSR) の連続層である。
論文 参考訳(メタデータ) (2025-09-27T14:49:58Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。