論文の概要: Realizing Native INT8 Compute for Diffusion Transformers on Consumer GPUs: A Fused INT8 GEMM Kernel for Ideogram 4.0
- arxiv url: http://arxiv.org/abs/2606.14598v1
- Date: Fri, 12 Jun 2026 16:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.982425
- Title: Realizing Native INT8 Compute for Diffusion Transformers on Consumer GPUs: A Fused INT8 GEMM Kernel for Ideogram 4.0
- Title(参考訳): 消費者向けGPU上での拡散変換器用ネイティブINT8計算の実現:Ideogram 4.0用統合INT8 GEMMカーネル
- Authors: Ali Asaria, Tony Salomone, Deep Gandhi,
- Abstract要約: 拡散変圧器の後のINT8(W8A8)量子化は、速度最適化として広く展開されている。
消費者向けのAmpere GPUでは、FP8やNF4よりも遅いことがしばしばある。
われわれはこのギャップをTriton INT8 GEMMで埋める。
したがって、INT8は最も遅い変種から最も速いものへと移行する。
- 参考スコア(独自算出の注目度): 0.08599681538174887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Post-training INT8 (W8A8) quantization of diffusion transformers is widely deployed as a speed optimization, yet on consumer Ampere GPUs it is frequently slower than the FP8 and NF4 alternatives it is meant to beat. We trace this to a software artifact: the production "INT8" forward quantizes weights and activations only to immediately dequantize them back to bf16 and run a bf16 matrix multiply, never engaging the GPU's INT8 tensor cores, so the hardware's compute advantage is left entirely unrealized. We close this gap with a single fused Triton INT8 GEMM (int8xint8->int32 on Ampere tensor cores, with per-token x per-channel dequantization and bias folded into the epilogue, autotuned per GEMM shape) dropped into the Ideogram 4.0 diffusion transformer's linear layers in place of the dequantize-to-bf16 path. In the kernel, the int8xint8->int32 accumulation is bit-exact against torch._int_mm and the dequantized output matches the reference at cosine similarity 1.0 with no NaNs, running 2.8-4.2x faster than bf16 per GEMM. End to end it delivers a ~1.1x (~9-10%) speedup at 768px, and at 1024px it generates an image in 156.5 s on a single RTX 3090, faster than the single-card NF4 (164.5 s) and FP8 (172.9 s) baselines, at no measurable quality cost on these point estimates (PickScore/CLIPScore). INT8 thus goes from the slowest variant to the fastest, and 1024px becomes single-GPU feasible. The primary speed criterion (beat FP8, by ~9.5%) is comfortably met; the NF4 margin (~4.9%, single-run n=4) is within run-to-run variance we did not quantify and is best read as consistent with meeting the stretch target. We close with an honest deployment map: the win is specific to consumer Ampere, and on A100 and B200 the same kernel loses to those cards' fast native bf16/FP8 paths.
- Abstract(参考訳): 拡散トランスフォーマーのトレーニング後のINT8(W8A8)量子化は、速度最適化として広く展開されているが、消費者向けのAmpere GPUでは、FP8やNF4よりも頻繁に遅い。
プロダクション"INT8"は、重量とアクティベーションを定量化し、すぐにbf16に復調し、bf16行列を乗算してGPUのINT8テンソルコアを動かさないため、ハードウェアの計算優位性は完全に非現実化されている。
このギャップを1つの融合したTriton INT8 GEMM (int8xint8->int32 on Ampere tensor cores, with per-token x per-channel dequantization and bias folding into the epilogue,autotuned per GEMM shape) で埋め、Ideogram 4.0拡散変圧器の線形層に、dequantize-to-bf16パスの代わりに落下した。
カーネルでは、int8xint8->int32の蓄積は torch._int_mm に対してビット排他的であり、dequantized output は cosine similarity 1.0 の参照と NaN を含まないため、GEMM あたりの bf16 よりも 2.8-4.2 倍高速である。
終端は768pxで1.1x (~9-10%)のスピードアップを提供し、1024pxでは1枚のRTX 3090で156.5秒のイメージを生成し、シングルカードのNF4 (164.5 s)とFP8 (172.9 s)のベースラインよりも高速で、これらの点推定値の計測可能な品質コスト(PickScore/CLIPScore)を伴わない。
INT8は最も遅いバージョンから最速に移行し、1024pxはシングルGPUになる。
NF4マージン(~4.9%、単走 n=4)は、私たちが定量化しなかったラン・ツー・ラン分散の範囲内であり、ストレッチターゲットを満たすように最もよく読まれている。
A100とB200では、同じカーネルがそれらのカードの高速ネイティブなbf16/FP8パスに負けます。
関連論文リスト
- Holding the FP8 Quality Ceiling at 8-Bit Weights and Activations: INT8 and GGUF Post-Training Quantization of Ideogram 4.0 for Consumer GPUs [0.08599681538174887]
9.3Bフローベース拡散変圧器(DiT)Ideogram 4.0の学習後量子化について検討する。
我々は、Ideogramの公開キャプション仕様に組み込んだ拡張器によって生成されたスキーマ値プロンプトに基づいて、すべての変種を評価する。
We release the INT8 W8A8 and GG Q4_K Quantized weights on Hugging under a gated, non-commercial license。
論文 参考訳(メタデータ) (2026-06-10T16:19:49Z) - Spike-Aware C++ INT8 Inference for Sparse Spiking Language Models on Commodity CPUs [8.419155861590548]
スパイク言語モデルは、高密度のTransformerランタイムが直接利用しないアクティベーション空間を公開します。
スパースバイナリスパイク状態を実行プリミティブとして扱うC++ CPU推論ランタイムを実装した。
スパイク対応の実行は、スパース言語モデルのCPUスループットとメモリ動作を改善することができる。
論文 参考訳(メタデータ) (2026-06-02T02:03:37Z) - IntAttention: A Fully Integer Attention Pipeline for Efficient Edge Inference [11.526305104815357]
IntAttentionは、最初の完全整数型、プラグイン・アンド・プレイアテンションパイプラインで、再トレーニングは行わない。
IntAttentionは、スペーサリティ対応クリッピング、32エントリルックアップテーブル近似、直接整数正規化を統合している。
提案手法は,ARMv8 CPU上の従来のINT8アテンションパイプラインよりも最大3.7倍,FP16ベースラインより61%のエネルギー削減を実現している。
論文 参考訳(メタデータ) (2025-11-26T15:46:22Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - A Speed Odyssey for Deployable Quantization of LLMs [19.12232212257625]
量子化アルゴリズムの構築において,ハードウェア中心のアプローチを導入する。
我々の方法であるOdysseyLLMは、FastGEMMと呼ばれる新しいW4A8カーネル実装と、量子化戦略のレシピを組み合わせたものである。
実験では、Hugging Face FP16や textbf2.23$times$と、最先端の推論エンジンと比較して、実際の速度が textbf4$times$に向上するW4A8メソッドの優位性を示しています。
論文 参考訳(メタデータ) (2023-11-16T04:11:19Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。