論文の概要: Holding the FP8 Quality Ceiling at 8-Bit Weights and Activations: INT8 and GGUF Post-Training Quantization of Ideogram 4.0 for Consumer GPUs
- arxiv url: http://arxiv.org/abs/2606.12280v1
- Date: Wed, 10 Jun 2026 16:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.556341
- Title: Holding the FP8 Quality Ceiling at 8-Bit Weights and Activations: INT8 and GGUF Post-Training Quantization of Ideogram 4.0 for Consumer GPUs
- Title(参考訳): 8ビットでのFP8品質シーリングとアクティベーション: INT8とGGUFによる消費者向けGPU用Ideogram 4.0のポストトレーニング量子化
- Authors: Deep Gandhi, Ali Asaria, Tony Salomone,
- Abstract要約: トレーニング後の量子化により、コンシューマGPU上で大きなテキスト間拡散トランスフォーマーを実行することができるが、ハードウェア固有のトレードオフを直接測定することはめったにない。
Ideogram 4.0 - 9.3Bフローマッチング拡散変圧器(DiT)を1ストリーム34層バックボーンの2つの分離重み付きコピーとして出荷する。
8ビットの量子化が役立ち、そうでない場合を特徴付けるので、Ampere の高速化は INT8 カーネルの融合を待ちます。
- 参考スコア(独自算出の注目度): 0.08599681538174887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Post-training quantization lets large text-to-image diffusion transformers run on consumer GPUs, yet the hardware-specific trade-offs are seldom measured directly. We quantize Ideogram 4.0 - a 9.3B flow-matching diffusion transformer (DiT), shipped as two separate-weight copies of a single-stream 34-layer backbone for classifier-free guidance and conditioned by a Qwen3-VL-8B encoder - for Ampere RTX 3090 GPUs, which lack FP8 tensor cores. Our INT8 W8A8 recipe (per-channel weights, per-token dynamic activations, SmoothQuant, and mixed-precision protection of a small high-fragility layer set) holds the FP8 quality ceiling: on a 200-prompt benchmark the paired same-seed bootstrap CI for INT8-FP8 includes zero on both Pick and CLIP, while INT8 improves on NF4 by $+1.9$ CLIP (95% CI $[+1.21,+2.64]$, excluding zero). A per-category OCR analysis, to our knowledge unreported for this model class, confirms text legibility is preserved, and an ablation isolates protection of the FFN down-projections as the dominant quality lever. Our GGUF Q4_K quantization beats NF4 at equal on-disk size and is the Pareto winner on the quality-memory frontier, with paired confidence intervals excluding zero (Q8_0 is quality neutral). Finally, we characterize where 8-bit quantization helps and where it does not: INT8's weights match FP8's footprint rather than shrink it, so a speed gain on Ampere awaits a fused INT8 kernel.
- Abstract(参考訳): トレーニング後の量子化により、コンシューマGPU上で大きなテキスト間拡散トランスフォーマーを実行することができるが、ハードウェア固有のトレードオフを直接測定することはめったにない。
我々は、FP8テンソルコアを欠いたAmpere RTX 3090 GPUに対して、Ideogram 4.0 - 9.3Bフローマッチング拡散トランスフォーマー (DiT) を、Qwen3-VL-8Bエンコーダで条件付された単一ストリーム34層バックボーンの2つの分離軽量コピーとして出荷する。
200-promptベンチマークでは、INT8-FP8用のペア化された同列ブートストラップCIはPickとCLIPの両方にゼロを含み、INT8はNF4を+1.9$CLIP(95% CI $[+1.21,+2.64]$)で改善します。
カテゴリーごとのOCR分析では,本モデルクラスで報告されていない知識により,テキストの可読性は維持され,アブレーションによりFFNダウンプロジェクションの保護が支配的な品質レバーとして分離される。
我々のGGUF Q4_K量子化は、NF4のオンディスクサイズを等しく上回り、品質メモリフロンティアにおけるパレートの勝者であり、ゼロ(Q8_0は品質中立)を除く2つの信頼区間を持つ。
INT8の重みはFP8のフットプリントと一致するので、Ampereの高速化はINT8カーネルの融合を待つ。
関連論文リスト
- FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error [3.281844093101284]
大規模なMixture-of-Experts(MoE)モデルのトレーニングは、極端な計算とメモリ要求のため、計算的に禁じられている。
FP8-Flow-MoEは,スケールアウェア計算と融合したFP8演算子を備えた量子化一貫性FP8中心のデータフローを特徴とする学習レシピである。
論文 参考訳(メタデータ) (2025-11-04T06:36:59Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design [13.062940916273973]
大規模言語モデル(LLM)は例外的な性能を示すが、かなりのメモリと計算コストを必要とする。
既存のINT4/INT8量子化はこれらのコストを削減するが、しばしば精度を低下させるか、最適効率を欠く。
アルゴリズムの革新とシステムレベルの評価を組み合わせた新しいフレームワークFlexQを提案する。
論文 参考訳(メタデータ) (2025-08-06T12:47:05Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - FP8 versus INT8 for efficient deep learning inference [14.98281493168929]
デバイス上での効率的な推論のために,FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較した。
FP フォーマットは INT フォーマットよりも,専用ハードウェアの計算効率が 50-180% 程度低いことを示す。
提案したFP8フォーマットはトレーニングに適しているが,推測の結果はFP8の専用実装を保証していない。
論文 参考訳(メタデータ) (2023-03-31T10:29:17Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。