論文の概要: Fast-TurboQuant: A Multiplier-Free Online Vector Quantization Approach
- arxiv url: http://arxiv.org/abs/2606.21448v1
- Date: Fri, 19 Jun 2026 14:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:23:26.073271
- Title: Fast-TurboQuant: A Multiplier-Free Online Vector Quantization Approach
- Title(参考訳): Fast-TurboQuant: マルチプライヤフリーオンラインベクトル量子化アプローチ
- Authors: Pedro M. R. Pereira, Felipe A. P. de Figueiredo, Rausley A. A. de Souza,
- Abstract要約: 我々は、高密度行列を高速ジョンソン・リンデンシュトラウス変換に置き換える乗算自由射影アーキテクチャであるFast-TurboQuantを導入する。
DBpedia OpenAI-3 大規模埋め込みの評価は、シーケンシャル実行時のアルゴリズムの19.7倍のスピードアップを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models scale, memory bandwidth for key-value caches and retrieval-augmented generation systems becomes a critical bottleneck. While 1-bit quantization addresses this constraint, recent TurboQuant relies on dense random rotation matrices to condition the vector distribution before quantization. This projection demands millions of floating-point multiplications per embedding, making it difficult to deploy on constrained edge silicon. We introduce Fast-TurboQuant, a multiplier-free projection architecture that replaces the dense matrix with a structured fast Johnson-Lindenstrauss transform. By applying a Rademacher phase inversion followed by a fast Walsh-Hadamard transform (FWHT), the method leverages sub-Gaussian concentration to satisfy the prerequisites of scalar Lloyd-Max quantization without Gaussian projections. This substitution reduces the arithmetic complexity to only additions, eliminating hardware multipliers. Evaluation on DBpedia OpenAI-3 Large embeddings demonstrates a 19.7 times algorithmic speedup under sequential execution. Furthermore, the dimension expansion due to the FWHT zero-padding reduces the mean squared error and improves Recall@10.
- Abstract(参考訳): 大規模言語モデルがスケールするにつれて、キー値キャッシュと検索拡張生成システムのメモリ帯域幅が重要なボトルネックとなっている。
1ビット量子化はこの制約に対処するが、最近のTurboQuantは、量子化の前にベクトル分布を条件付けるために、密度の高いランダムな回転行列に依存する。
このプロジェクションは、埋め込み毎に数百万の浮動小数点乗算を必要とするため、制約されたエッジシリコン上でのデプロイが困難になる。
我々は、高密度行列を高速ジョンソン・リンデンシュトラウス変換に置き換える乗算自由射影アーキテクチャであるFast-TurboQuantを導入する。
ラデマッハ位相反転と高速ウォルシュ・アダマール変換(FWHT)を適用することにより、ガウス下濃度を利用して、ガウス射影を伴わないスカラーロイド-マックス量子化の前提条件を満たす。
この置換は、演算の複雑さを加算のみに減らし、ハードウェア乗算をなくす。
DBpedia OpenAI-3 大規模埋め込みの評価は、シーケンシャル実行時のアルゴリズムの19.7倍のスピードアップを示す。
さらに、FWHTゼロパディングによる次元展開により平均二乗誤差が減少し、Recall@10が向上する。
関連論文リスト
- Low-Cost Multi-Precision Systolic Arrays for Accelerating FHE NTTs on AI ASICs [0.3186130813218338]
ホモモルフィック暗号化(FHE)は、堅牢なデータのプライバシを保証するが、計算オーバーヘッドの禁止に悩まされる。
Processing Units (TPU)のようなAIハードウェア上でFHEを加速することは有望だが、基本的には精度のミスマッチによって制限されている。
低精度行列乗算と同期して完全精度の出力再構成を行う最小限のマルチ精度シストリックアレイを提案する。
論文 参考訳(メタデータ) (2026-06-18T07:26:13Z) - GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization [4.700954456190739]
エッジデバイス上の大規模言語モデル (LLM) とビジョントランスフォーマー (ViT) は、メモリ制限と、密度の高いマルチプライアキュムレート (MAC) 配列によって引き起こされる重要なタイミングボトルネックによって制約される。
超低ビット状態において、対数パワー・オブ・ツー(PoT)量子化はMAC演算をビットシフトで置き換えることで、ハードウェア効率の良い代替手段を提供する。
本稿では,アルゴリズム・ハードウェアの共同設計フレームワークであるGeometric Orthogonal Residual Projection Quantization (GoQuant)を提案する。
論文 参考訳(メタデータ) (2026-05-25T17:52:46Z) - Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。