論文の概要: Understanding Quantization-Aware Training: Gradients at Quantized Weights Bias to the Low-Loss Basin
- arxiv url: http://arxiv.org/abs/2606.09012v1
- Date: Mon, 08 Jun 2026 04:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.695384
- Title: Understanding Quantization-Aware Training: Gradients at Quantized Weights Bias to the Low-Loss Basin
- Title(参考訳): 量子化学習の理解:低損失盆地への量子化重量勾配
- Authors: Hanyang Li, Jianhao Ma, Ying Cui,
- Abstract要約: ポストトレーニング量子化は、訓練された完全精度モデルをタスクレベルの再トレーニングなしで低ビット重みに変換する。
PTQは適度なビット幅では効率的で精度が高いが、攻撃的なビット幅では急激に故障することがある。
本稿ではPTQ障害とQAT回復の両方を説明する統一的な幾何学的枠組みを提案する。
- 参考スコア(独自算出の注目度): 13.185423069216808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) converts a trained full-precision model into low-bit weights without task-level retraining, while quantization-aware training (QAT) incorporates quantization into the training loop. Although PTQ is efficient and often accurate at moderate bitwidths, it can fail sharply at aggressive bitwidths; QAT is more expensive but can often recover the lost accuracy. We propose a unified geometric framework that explains both PTQ failure and QAT recovery. We model full-precision training as following a low-loss \emph{river} inside a wider \emph{valley}: a normal neighborhood of the river forms a nearly flat \emph{basin}, while leaving this basin incurs a sharp loss increase. When the quantization grid is comparable to the basin width, local PTQ objectives, including rounding and Hessian-based second-order reconstruction, can select a high-loss deployed quantized point outside the basin even when nearby low-loss quantized points exist. In this regime, straight-through-estimator-based QAT has a useful bias: it evaluates gradients at the deployed quantized weights while updating latent full-precision weights, causing the gradient to sense the valley wall and acquire an inward component that steers subsequent quantized iterates back into the basin. We formalize this mechanism through a local landscape model, construct a geometric PTQ failure mode, and prove finite-time QAT recovery under local quantizer-compatibility assumptions. Experiments across vision and language models under multiple neural-network quantization schemes corroborate the predicted basin-crossing failure of PTQ and the corresponding recovery mechanism of QAT.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、トレーニングされた完全精度モデルをタスクレベルのリトレーニングなしで低ビットの重みに変換し、量子化対応トレーニング(QAT)はトレーニングループに量子化を組み込む。
PTQは適度なビット幅では効率的で精度が高いが、攻撃的なビット幅では急激に故障することがある。
本稿ではPTQ障害とQAT回復の両方を説明する統一的な幾何学的枠組みを提案する。
我々は,河川の通常の近傍がほぼ平坦な場所を形成しながら,この盆地は急激な損失増加を招きながら,低損失の「emph{river}」に従うように,完全精度の訓練をモデル化する。
量子化格子が盆地幅に匹敵する場合、局所PTQ目的物(ラウンドリングやヘッセン系2次再構成を含む)は、近傍の低損失量子化点が存在する場合でも、盆地の外側に配置された高損失量子化点を選択することができる。
この状態において、直線スルー推定器に基づくQATは、展開された量子化重量の勾配を評価しながら、潜伏した完全精度の重みを更新し、勾配が谷壁を感知し、その後に量子化を繰り返す内向き成分を取得するという有用なバイアスを持つ。
局所的なランドスケープモデルを用いてこの機構を定式化し、幾何学的PTQ故障モードを構築し、局所的な量化器・適合性仮定の下で有限時間QAT回復を証明した。
複数のニューラルネットワーク量子化スキームの下での視覚モデルと言語モデルによる実験は、PTQの予測された流域横断障害とQATの回復機構を相関させる。
関連論文リスト
- LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs [52.1276403258812]
ブロックワイドPTQの簡易かつ効果的な拡張であるLFQ(Logit-aware Final-block Quantization)を導入する。
LFQは、最先端のブロックワイドPTQよりも複雑な生成タスクの精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-05-28T11:02:23Z) - Saliency-Aware Regularized Quantization Calibration for Large Language Models [12.382772717031772]
トレーニング後の量子化(PTQ)は、大きな言語モデル(LLM)をメモリとレイテンシの制約下でデプロイするための効果的なアプローチである。
既存のPTQ手法の多くは、所定のキャリブレーションデータセット上の層次再構成誤差を最小限に抑えて量子化パラメータを決定する。
提案された正則化は、キャリブレーションの間、量子化された重みが元の重みに近づき続けることを奨励し、推論時の一般化を改善させる。
論文 参考訳(メタデータ) (2026-05-07T05:33:26Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization [0.0]
層ワイドPTQは大規模言語モデル(LLM)を圧縮するための有望な手法である
この領域の最近の進歩は飽和しており、中核的な制限を再検討し、さらなる改善を検討する必要性を浮き彫りにしている。
本稿では,量子化エラーを明示的に伝播し,蓄積したエラーを補償することにより,レイヤワイズPTQを向上させる,汎用的で軽量でスケーラブルなフレームワークである量子化エラー伝播(QEP)を提案する。
論文 参考訳(メタデータ) (2025-04-13T15:56:00Z) - APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。
本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文 参考訳(メタデータ) (2025-04-03T11:48:56Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - QDrop: Randomly Dropping Quantization for Extremely Low-bit
Post-Training Quantization [54.44028700760694]
ポストトレーニング量子化(PTQ)は、長時間のリトレーニングなしに効率的なニューラルネットワークを生成するために多くの注目を集めている。
本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを先駆的に確認する。
結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに減少させる。
論文 参考訳(メタデータ) (2022-03-11T04:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。