論文の概要: TWLA: Achieving Ternary Weights and Low-Bit Activations for LLMs via Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2606.13054v2
- Date: Fri, 12 Jun 2026 02:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.687114
- Title: TWLA: Achieving Ternary Weights and Low-Bit Activations for LLMs via Post-Training Quantization
- Title(参考訳): TWLA:後量子化によるLCMの3次重みと低ビット活性化の実現
- Authors: Zhixiong Zhao, Zukang Xu, Zhixuan Chen, Xing Hu, Zhe Jiang, Dawei Yang,
- Abstract要約: ターナライゼーションは有望な圧縮技術として登場した。
既存の方法は重み付き活性化分布に苦しむ。
我々は1.58ビットの重み圧縮と4ビットのアクティベーション量子化を実現するフレームワークであるTWLAを提案する。
- 参考スコア(独自算出の注目度): 15.401450705732232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit exceptional general language processing capabilities, but their memory and compute costs hinder deployment. Ternarization has emerged as a promising compression technique, offering significant reductions in model size and inference complexity. However, existing methods struggle with heavy-tailed activation distributions and therefore keep activations in high precision, fundamentally limiting end-to-end inference acceleration. To overcome this limitation, we propose TWLA, a post-training quantization (PTQ) framework that achieves 1.58-bit weight compression and 4-bit activation quantization while maintaining high accuracy. TWLA comprises three components: (1) Euclidean-to-Manifold Asymmetric Ternary Quantizer (E2M-ATQ) minimizes layer-output error under weight ternarization via a two-stage optimization from Euclidean initialization to manifold relocation; (2) Kronecker Orthogonal Tri-Modal Shaping (KOTMS) applies a Kronecker-structured orthogonal rotation to reshape weights into ternary-friendly tri-modal distributions, while the shared rotation statistically suppresses activation outliers; and (3) Inter-Layer Aware Activation Mixed Precision (ILA-AMP) explicitly introduces adjacent-layer second-order interaction costs in bit allocation and jointly optimizes for the layer-wise disparity of activation quantization gains induced by the shared orthogonal transform, preventing cascades triggered by a few weak layers. Extensive experiments demonstrate that TWLA maintains high accuracy under W1.58A4, while delivering significant inference acceleration. The code is available at https://github.com/Kishon-zzx/TWLA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、例外的な汎用言語処理能力を示すが、そのメモリと計算コストは、デプロイメントを妨げている。
ターナライゼーションは有望な圧縮技術として登場し、モデルサイズと推論の複雑さを大幅に削減した。
しかし、既存の方法は重み付けされた活性化分布に苦しむため、活性化を高精度に保ち、基本的にエンドツーエンドの推論アクセラレーションを制限している。
この制限を克服するため、我々は1.58ビットの重み圧縮と4ビットのアクティベーション量子化を実現し、高精度を維持しながら学習後量子化(PTQ)フレームワークであるTWLAを提案する。
TWLAは、(1)ユークリッド初期化から多様体再配置への2段階最適化による重み付け時の層出力誤差を最小化する(E2M-ATQ)、(2) Kronecker Orthogonal Tri-Modal Shaping(KOTMS)は、Kronecker構造の直交回転を適用して、三方晶分布に重みを変換する一方、共有回転は、統計的に活性化を阻害する(ILA-AMP)。
大規模な実験により、TWLAはW1.58A4の下で高い精度を維持しながら、大きな推論加速をもたらすことが示された。
コードはhttps://github.com/Kishon-zzx/TWLAで公開されている。
関連論文リスト
- BWLA: Breaking the Barrier of W1AX Post-Training Quantization for LLMs [10.07268309735318]
大規模言語モデル(LLM)は、NLPに大きな進歩をもたらしたが、そのかなりのメモリと計算要求は、まだ実用的なデプロイメントを妨げている。
我々は,1ビットの重み量子化を達成しつつ,高精度な学習後量子化フレームワークであるBWLAを提案する。
Qwen3-32Bでは、BWLAは6ビットアクティベーションでWikitext2の難易度11.92に達し、5つのゼロショットタスクを70%以上改善し、3.26倍の推論速度を提供する。
論文 参考訳(メタデータ) (2026-05-01T05:42:57Z) - LBLLM: Lightweight Binarization of Large Language Models via Three-Stage Distillation [29.676785178178104]
本稿では,W(1+1)A4量子化を実現する軽量なバイナライズフレームワークであるLBLLMについて,新しい3段階量子化戦略を提案する。
LBLLMは1つのGPUで0.016Bトークンのみを使用してトレーニングされており、W2A4量子化設定における既存の最先端のバイナライズ手法を超越している。
論文 参考訳(メタデータ) (2026-04-21T07:25:02Z) - SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization [7.372706701787234]
学習後量子化(PTQ)は,大規模言語モデルを効率的に展開するための一般的な手法として登場した。
SERQは1つの低ランク補償行列を用いる低ビットLLM推論のためのサリエンシ対応誤差再構成法である。
論文 参考訳(メタデータ) (2026-03-09T10:04:12Z) - PRAC: Principal-Random Subspace for LLM Activation Compression and Memory-Efficient Training [5.275001711555517]
LLM Activation Compression (PRAC) のためのプライマリランサム部分空間を提案する。
PRACはアクティベーションを2つのコンポーネントに分解する: SVDで取得した主部分空間は支配的な情報を保持するために、そして直交補体からサンプリングされたランダム部分空間は尾部を近似する。
事前トレーニングおよび微調整タスクの実験により、PRACは、無視できる性能劣化と最小計算コストで最大36%のメモリ削減を達成した。
論文 参考訳(メタデータ) (2026-02-26T15:23:34Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。