論文の概要: OffQ: Taming Structured Outliers in LLM Quantization by Offsetting
- arxiv url: http://arxiv.org/abs/2606.07116v1
- Date: Fri, 05 Jun 2026 10:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.686008
- Title: OffQ: Taming Structured Outliers in LLM Quantization by Offsetting
- Title(参考訳): OffQ:オフセットによるLCM量子化における構造外乱の処理
- Authors: Haoqi Wang, Lorenz K. Mueller, Jiawei Zhuang, Mathieu Salzmann, Lukas Cavigelli,
- Abstract要約: OffQは、新しいオフセット機構を通じて、低ビット量子化におけるアクティベーションアウトリーを緩和する。
OffQは、低ビット効率を維持しながら、モデルの精度を一貫して改善する。
- 参考スコア(独自算出の注目度): 46.325071880831445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-bit quantization has been widely adopted to accelerate the inference of large language models (LLMs) by significantly reducing computational cost and memory usage. However, activation outliers pose a major challenge to effective quantization, often leading to notable performance degradation. In this paper, we introduce OffQ, a method designed to mitigate activation outliers in low-bit quantization through a novel offsetting mechanism. Specifically, OffQ first identifies a low-dimensional outlier subspace in the activations using a proposed top-1 PCA, and then concentrates high-magnitude activations into 1 channel via rotation. OffQ then absorbs this concentrated outlier channel by converting its magnitude into a shared offset, thereby reducing the standard deviation of the activations. This offsetting strategy enables effective W4A4KV4 quantization of LLMs using deployment-friendly uniform-grid and uniform-precision quantization. Extensive experiments across diverse LLM architectures and benchmarks demonstrate that OffQ outperforms state-of-the-art baselines, consistently improving model accuracy while preserving low-bit efficiency.
- Abstract(参考訳): 低ビット量子化は、計算コストとメモリ使用量を大幅に削減することで、大規模言語モデル(LLM)の推論を加速するために広く採用されている。
しかし、アクティベーション・アウトレイアは効果的な量子化に大きく挑戦し、しばしば顕著な性能劣化を引き起こす。
本稿では,新しいオフセット機構により,低ビット量子化におけるアクティベーション・アウトレイアを緩和する手法であるOffQを紹介する。
具体的には、OFQはまず提案されたトップ-1 PCAを用いて活性化中の低次元の外れ値部分空間を特定し、次に回転によって1つのチャネルに高次活性化を集中させる。
OffQは、その大きさを共有オフセットに変換することで、この集中した外れチャネルを吸収し、活性化の標準偏差を減少させる。
このオフセット戦略により、デプロイメントフレンドリーな均一グリッドと均一精度量子化を用いたLLMの有効W4A4KV4量子化が可能となる。
多様なLLMアーキテクチャとベンチマークの広範な実験により、OFQは最先端のベースラインより優れ、低ビット効率を維持しながらモデルの精度を一貫して向上することを示した。
関連論文リスト
- Rethinking Output Alignment For 1-bit Post-Training Quantization of Large Language Models [41.677469535447024]
大きな言語モデル(LLM)は、幅広いNLPタスクに対して強力なパフォーマンスを提供するが、その巨大なサイズは、リソースに制約のあるデバイスへのデプロイメントを妨げる。
トレーニング後の量子化(PTQ)は、リトレーニングを必要とせず、キャリブレーションのための小さなデータセットのみを必要とするため、その効率性に広く採用されている。
ポストトレーニング量子化の最近の進歩は、サブ4ビット法でさえオリジナルのモデル性能のほとんどを維持できることを示した。
論文 参考訳(メタデータ) (2025-12-25T12:39:36Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization [18.017182472532415]
ASERは、SVDを白化して構築したLoRAスタイルの行列を用いた量子化誤差に対する低ランク補償からなるアルゴリズムである。
ASERは、典型的な外れ値を低ビットの値に量子化することができる。
論文 参考訳(メタデータ) (2024-11-12T12:52:04Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。