論文の概要: ScalePredictor: Instance-aware Scale Learning for Accurate Quantization of Vision Transformers
- arxiv url: http://arxiv.org/abs/2606.21947v1
- Date: Sat, 20 Jun 2026 08:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:51:55.989995
- Title: ScalePredictor: Instance-aware Scale Learning for Accurate Quantization of Vision Transformers
- Title(参考訳): ScalePredictor: 視覚変換器の正確な量子化のためのインスタンス対応のスケールラーニング
- Authors: Changjun Li, Runqing Jiang, Lian Xu, Ye Zhang, Qingyong Hu, Yulan Guo,
- Abstract要約: トレーニング後の量子化(PTQ)は、最小限のトレーニングオーバーヘッドを持つ小さなキャリブレーションセットを使用してモデルを圧縮することで、魅力的なソリューションを提供する。
既存のPTQ作業の多くは、全てのインスタンスに一様に適用される静的量子化パラダイムを採用している。
本稿では,ViTの高精度かつ効率的な量子化スケール学習のための動的量子化フレームワークであるScalePredictorを提案する。
- 参考スコア(独自算出の注目度): 60.09590321091875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers have achieved remarkable success in many fields, yet their deployment on edge devices remains challenging due to their substantial computational demands. Post-Training Quantization (PTQ) offers an attractive solution by compressing models using a small calibration set with minimal training overhead. However, most existing PTQ works adopt a static quantization paradigm that is uniformly applied to all instances. Given the substantial diversity of natural images, the activation distributions vary significantly across samples, making these methods inherently suboptimal. In this paper, we propose ScalePredictor, a dynamic quantization framework for accurate and efficient quantization scale learning of ViTs. We first reveal a hidden correlation between the distribution range of shallow-layer activations and the optimal scales of deeper layers. Based on this, we develop a scale learning mechanism that integrates an efficient range extraction approach to capture robust range statistics at the shallow stage, which are then fed into a Taylor-motivated polynomial scale projection module to generate all quantization scales simultaneously. With the efficiency of polynomial approximation, ScalePredictor introduces insignificant computational overhead while avoiding costly just-in-time calibration. Extensive experiments on ImageNet demonstrate that ScalePredictor consistently outperforms prior PTQ methods, achieving a more favorable accuracy-efficiency trade-off. Code and additional results are shown in the supplementary materials.
- Abstract(参考訳): ビジョントランスフォーマーは多くの分野において顕著な成功を収めてきたが、エッジデバイスへのデプロイメントは、その相当な計算要求のため、依然として困難である。
トレーニング後の量子化(PTQ)は、最小限のトレーニングオーバーヘッドを持つ小さなキャリブレーションセットを使用してモデルを圧縮することで、魅力的なソリューションを提供する。
しかし、既存のPTQ作業の多くは、全てのインスタンスに一様に適用される静的量子化パラダイムを採用している。
自然画像のかなりの多様性を考えると、活性化分布はサンプルによって大きく異なり、これらの手法は本質的に準最適である。
本稿では,ViTの高精度かつ効率的な量子化スケール学習のための動的量子化フレームワークであるScalePredictorを提案する。
まず,浅層活性化の分布範囲と深層の最適スケールとの間に隠れた相関関係を明らかにする。
そこで我々は,浅層域におけるロバストレンジ統計を捉えるために,効率的なレンジ抽出手法を統合した尺度学習機構を開発し,テイラー動機の多項式スケール投影モジュールに入力し,全ての量子化スケールを同時に生成する。
多項式近似の効率性により、ScalePredictorは、コストのかかるジャスト・イン・タイムのキャリブレーションを回避しつつ、重要な計算オーバーヘッドを導入する。
ImageNetの大規模な実験では、ScalePredictorがPTQメソッドよりも一貫して優れており、より良好な精度と効率のトレードオフを実現している。
追加資料には、コードと追加結果が記載されている。
関連論文リスト
- Optimal Post-Training Quantization Scales and Where to Find Them [1.3048920509133808]
ポストトレーニング量子化(PTQ)は、重みを低表現にマッピングすることで、大きな言語モデルを圧縮する。
本稿では, チャネルワイド重み計算アルゴリズムであるPiSOを, ラウンド・ツー・アネレスト量子化の下で正確に, 効率的に計算する。
論文 参考訳(メタデータ) (2026-06-09T14:03:04Z) - LSGQuant: Layer-Sensitivity Guided Quantization for One-Step Diffusion Real-World Video Super-Resolution [52.627063566555194]
本稿では,一段階拡散に基づく実世界VSRのための層感度誘導量子化手法LSGQuantを紹介する。
本手法は,ビデオトークンのアクティベーションに適合する動的レンジ適応量子化器 (DRAQ) を備える。
提案手法は,完全精度のオリジンモデルに対してほぼ性能が良く,既存の量子化手法をはるかに上回っている。
論文 参考訳(メタデータ) (2026-02-03T06:53:19Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。