論文の概要: Shift-and-Sum Quantization for Visual Autoregressive Models
- arxiv url: http://arxiv.org/abs/2606.16131v1
- Date: Mon, 15 Jun 2026 02:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.040799
- Title: Shift-and-Sum Quantization for Visual Autoregressive Models
- Title(参考訳): 視覚自己回帰モデルのためのシフト・アンド・サム量子化
- Authors: Jaehyeon Moon, Bumsub Ham,
- Abstract要約: ポストトレーニング量子化(PTQ)は、小さなデータセットを使用してディープネットワークの効率的な展開を可能にする。
視覚自己回帰モデル(VAR)にPTQを適用する上で重要な課題を2つ挙げる。
まず、値トークンの対称的な重複から量子化結果を集約することで、再構成誤差を低減するシフト・アンド・サム量子化法を提案する。
第2に、コードブックエントリのサンプリング周波数と予測確率を一致させる校正データの再サンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 22.851204837669567
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Post-training quantization (PTQ) enables efficient deployment of deep networks using a small set of data. Its application to visual autoregressive models (VAR), however, remains relatively unexplored. We identify two key challenges for applying PTQ to VAR: (i) large reconstruction errors in attention-value products, especially at coarse scales where high attention scores occur more frequently; and (ii) a discrepancy between the sampling frequencies of codebook entries and their predicted probabilities due to limited calibration data. To address these challenges, we propose a PTQ framework tailored for VAR. First, we introduce a shift-and-sum quantization method that reduces reconstruction errors by aggregating quantized results from symmetrically shifted duplicates of value tokens. Second, we present a resampling strategy for calibration data that aligns sampling frequencies of codebook entries with their predicted probabilities. Experiments on class-conditional image generation, inpainting, outpainting, and class-conditional editing show consistent improvements across VAR architectures, establishing a new state of the art in PTQ for VAR.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、小さなデータセットを使用してディープネットワークの効率的な展開を可能にする。
しかし、視覚的自己回帰モデル(VAR)への応用は、いまだに未検討である。
PTQをVARに適用するための2つの重要な課題を特定します。
一 注目価値商品、特に注目スコアが頻繁に発生する粗い規模における大規模な復元誤差
二 校正データに制限があるため、コードブックエントリのサンプリング周波数と予測確率との差がある。
これらの課題に対処するため,VARに適したPTQフレームワークを提案する。
まず、値トークンの対称的な重複から量子化結果を集約することで、再構成エラーを低減するシフト・アンド・サム量子化手法を提案する。
第2に、コードブックエントリのサンプリング周波数と予測確率を一致させる校正データの再サンプリング戦略を提案する。
クラス条件画像生成、塗装、塗装、およびクラス条件編集の実験は、VARアーキテクチャ全体で一貫した改善を示し、VARのためのPTQにおける新しい最先端技術を確立した。
関連論文リスト
- PTQ4ARVG: Post-Training Quantization for AutoRegressive Visual Generation Models [22.35209793690791]
量子化は一般的に、モデルサイズと計算遅延を低減するためにニューラルネットワークで使用される。
ARVGへの量子化の適用は、まだほとんど未検討である。
学習後量子化フレームワークPTQ4ARVGを提案する。
論文 参考訳(メタデータ) (2026-01-29T04:00:00Z) - Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。
提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-10-21T02:19:12Z) - $\bf{D^3}$QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection [85.9202830503973]
視覚的自己回帰(AR)モデルは、離散トークン予測を通じて画像を生成する。
本稿では,離散分布離散性を考慮した量子化誤差(D$3$QE)を自己回帰画像検出に活用することを提案する。
論文 参考訳(メタデータ) (2025-10-07T13:02:27Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - Enhancing Generalization in Data-free Quantization via Mixup-class Prompting [8.107092196905157]
ポストトレーニング量子化(PTQ)は効率を向上するが、特にプライバシー上の制約の下では、限られたキャリブレーションデータに悩まされる。
データフリー量子化(DFQ)は、生成逆数ネットワーク(GAN)やテキスト条件潜在拡散モデル(LDM)などの生成モデルを用いて合成画像を生成することでこれを緩和する。
テキストプロンプトレベルで複数のクラスラベルを融合させて,多種多様な堅牢な合成データを生成する混合テキストプロンプトであるtextbfmixup-class prompt を提案する。
論文 参考訳(メタデータ) (2025-07-29T16:00:20Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。
本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文 参考訳(メタデータ) (2025-04-03T11:48:56Z) - TTAQ: Towards Stable Post-training Quantization in Continuous Domain Adaptation [3.7024647541541014]
トレーニング後の量子化(PTQ)は、完全な精度のモデルを小さなキャリブレーションセット上で低ビット表現に量子化することで、ハードウェアの過大なコストを削減する。
従来のPTQメソッドは、動的で絶え間なく変化する現実世界のシナリオで失敗することが多い。
本稿では、従来のPTQの性能劣化に対処するため、TTAQと呼ばれるテスト時間適応のための新しい安定な量子化プロセスを提案する。
論文 参考訳(メタデータ) (2024-12-13T06:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。