論文の概要: Neural Network Quantization by Learning Low-Loss Subspaces
- arxiv url: http://arxiv.org/abs/2606.25087v1
- Date: Tue, 23 Jun 2026 18:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 21:36:10.20036
- Title: Neural Network Quantization by Learning Low-Loss Subspaces
- Title(参考訳): 低損失部分空間学習によるニューラルネットワーク量子化
- Authors: Vladimir Protsenko, Mikhalina Kharkevich, Alexander Vashchilko, Vladimir Kryzhanovskiy,
- Abstract要約: 最近の研究では、低損失FP溶液は孤立ではなく、損失ランドスケープの連結低損失部分空間に属することが示されている。
量子化モデルは、FPモデルの低損失部分空間内に配置でき、それによって自動的に性能を保つことができるのか?
損失を最小限に抑えるために最適化された重み空間における量子化を考慮した線形経路を学習することでこの問題に対処する。
得られた部分空間の中間点は、設計上、量子化フレンドリであり、その直接量子化は量子化対応トレーニングに匹敵する性能をもたらすことを実証する。
- 参考スコア(独自算出の注目度): 42.07461306663832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network quantization aims to find a discrete representation of parameters that preserves the performance of a full-precision (FP) model as faithfully as possible. Enforcing discrete constraints perturbs parameters away from a well-optimized minimum, generally resulting in performance degradation. Recent studies indicate that low-loss FP solutions are not isolated, but instead belong to connected low-loss subspaces of the loss landscape, where the loss maintains nearly the same minimum value. Models sampled from these subspaces are diverse and retain high accuracy. This raises the question: can a quantized model be constructed to lie within a low-loss subspace of the FP model, thereby automatically preserving performance? We address this question by learning quantization-aware linear paths in weight space optimized to minimize loss. We demonstrate that the midpoint of the resulting subspace is, by design, quantization-friendly and that its direct quantization yields performance comparable to that of quantization-aware training. The proposed procedure offers a novel perspective on weight quantization and, in contrast to conventional methods, neither relies on the straight-through estimator nor involves explicit discretization during training.
- Abstract(参考訳): ニューラルネットワーク量子化は、FPモデルの性能を可能な限り忠実に保持するパラメータの離散表現を見つけることを目的としている。
離散的な制約がパラメータを最適化された最小値から切り離すと、一般的にパフォーマンスが低下する。
近年の研究では、低損失FP溶液は孤立せず、損失ランドスケープの連結低損失部分空間に属しており、損失の最小値はほぼ同じである。
これらの部分空間からサンプリングされたモデルは多様であり、高い精度を維持している。
量子化モデルは、FPモデルの低損失部分空間内に配置でき、それによって自動的に性能を保つことができるのか?
損失を最小限に抑えるために最適化された重み空間における量子化を考慮した線形経路を学習することでこの問題に対処する。
得られた部分空間の中間点は、設計上、量子化フレンドリであり、その直接量子化は量子化対応トレーニングに匹敵する性能をもたらすことを実証する。
提案手法は、ウェイト量子化に関する新しい視点を提供し、従来の手法とは対照的に、ストレートスルー推定器に依存したり、トレーニング中に明示的な離散化を伴わない。
関連論文リスト
- Fitting Is Not Enough: Smoothness in Extremely Quantized LLMs [46.88109820641649]
大規模言語モデル(LLM)は高いパフォーマンスを実現するが、高いデプロイメントコストがかかる。
既存の量子化アルゴリズムは主に前方計算の数値的精度の向上に焦点を当てている。
極端に量子化されたLLMは,数値的損失を超える系統的劣化に悩まされていることを示す。
論文 参考訳(メタデータ) (2026-05-09T11:19:51Z) - Low-Precision Streaming PCA [19.00482065580274]
低精度ストリーミングPCAは、限られた精度でストリーミング設定における最上位の主成分を推定する。
線形および非線形量子化の下でPCAをストリーミングするOjaのアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2025-10-25T21:48:17Z) - LOTION: Smoothing the Optimization Landscape for Quantized Training [9.855789447735757]
生の量子化損失を非バイアスのランダム化周囲雑音下での予測に置き換える原理的平滑化フレームワークであるLOTIONを導入する。
本手法は, 合成テストベッドおよび150M-および300M-パラメータ言語モデルにおいて, 標準QATよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-09T19:16:46Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Boost Post-Training Quantization via Null Space Optimization for Large Language Models [66.73751310500656]
既存の大規模言語モデル(LLM)の学習後量子化手法は驚くべき成功を収めている。
余分な性能向上は、既存の量子化戦略がより圧縮されたモデルの開発を支援するには不十分であることを示唆している。
我々は、量子化後の重みを入力アクティベーションのヌル空間内に配置することで、量子化誤差を効果的に緩和することができると論じる。
論文 参考訳(メタデータ) (2025-05-21T14:07:07Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Understanding the Difficulty of Low-Precision Post-Training Quantization for LLMs [4.5529796609245805]
高いパラメータ数を持つ大規模言語モデルは計算コストが高いが、その重みを非常に低い数値精度に圧縮することで、はるかに効率的にすることができる。
同じデータ制約下では、前者のアプローチは後者よりもほぼ常に悪化しており、数値精度が非常に低い場合に特に顕著な現象である。
論文 参考訳(メタデータ) (2024-10-18T16:16:52Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。