論文の概要: Holding the FP8 Quality Ceiling at 8-Bit Weights and Activations: INT8 and GGUF Post-Training Quantization of Ideogram 4.0 for Consumer GPUs
- arxiv url: http://arxiv.org/abs/2606.12280v2
- Date: Fri, 12 Jun 2026 15:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.584842
- Title: Holding the FP8 Quality Ceiling at 8-Bit Weights and Activations: INT8 and GGUF Post-Training Quantization of Ideogram 4.0 for Consumer GPUs
- Title(参考訳): 8ビットでのFP8品質シーリングとアクティベーション: INT8とGGUFによる消費者向けGPU用Ideogram 4.0のポストトレーニング量子化
- Authors: Deep Gandhi, Ali Asaria, Tony Salomone,
- Abstract要約: 9.3Bフローベース拡散変圧器(DiT)Ideogram 4.0の学習後量子化について検討する。
我々は、Ideogramの公開キャプション仕様に組み込んだ拡張器によって生成されたスキーマ値プロンプトに基づいて、すべての変種を評価する。
We release the INT8 W8A8 and GG Q4_K Quantized weights on Hugging under a gated, non-commercial license。
- 参考スコア(独自算出の注目度): 0.08599681538174887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study post-training quantization (PTQ) of Ideogram 4.0, a 9.3B flow-matching diffusion transformer (DiT) that realizes classifier-free guidance with two separate-weight copies of a single-stream backbone and is conditioned by a Qwen3-VL text encoder, targeting Ampere RTX~3090 GPUs, which lack FP8 tensor cores. Because Ideogram~4.0 is trained on structured JSON captions, we evaluate every variant under schema-valid JSON prompts produced by an LLM expander built to Ideogram's published caption specification, and score them with a battery spanning human-preference (HPSv2), CLIP, and PickScore for standalone quality; PP-OCR exact-match and edit distance for text; and PSNR/SSIM/LPIPS for fidelity to the FP8 reference (the highest-precision public checkpoint) output. On a 300-prompt benchmark with paired bootstrap confidence intervals, an INT8 W8A8 recipe (per-channel weights, per-token dynamic activations, SmoothQuant, and bf16 protection of a small high-fragility layer set) is statistically indistinguishable from FP8 on CLIP and PickScore (paired CIs include zero) and within ~0.004 HPSv2, and, at its 8-bit size, is the most faithful reproduction of the FP8 output (LPIPS 0.243 vs 0.277/0.306 for the half-size 4-bit baselines; the INT8-Q4_K gap excludes zero). A GGUF Q4_K quantization reaches the same standalone quality as the published NF4 baseline at the same on-disk size, making it the Pareto choice on the quality-memory frontier. We further show that under JSON prompts all four variants reach parity on standalone quality, the variants separate on fidelity and text rendering, not on aggregate image-quality scores, and that text legibility, near-zero when the model is prompted with raw strings, reaches 55% OCR exact-match under the JSON captions it expects. We release the INT8 W8A8 and GGUF Q4_K quantized weights on Hugging Face under a gated, non-commercial license.
- Abstract(参考訳): 本研究では,FP8テンソルコアを欠いたAmpere RTX~3090 GPUをターゲットとしたQwen3-VLテキストエンコーダを用いて,シングルストリームバックボーンの2つの分離重み付きコピーによる分類器レスガイダンスを実現する9.3Bフローマッチング拡散トランスフォーマ(DiT)であるIdeogram 4.0のポストトレーニング量子化(PTQ)について検討する。
Ideogram~4.0は構造化JSONキャプションに基づいてトレーニングされているため、Ideogramの公開キャプション仕様に組み込まれたLCM拡張器によって生成されたスキーマ値JSONプロンプトに基づいて、すべての変種を評価し、スタンドアロン品質のためにHPSv2、CLIP、PickScoreにまたがるバッテリーでスコアし、PP-OCRの正確なマッチとテキストの編集距離、FP8参照(最高精度の公開チェックポイント)への忠実さをPSNR/SSIM/LPIPSで評価する。
ブートストラップの信頼区間がペア化された300プロンプトのベンチマークでは、INT8 W8A8レシピ(チャネルあたりの重み、トーケン毎の動的アクティベーション、SmoothQuant、bf16の保護)はCLIPとPickScoreのFP8と統計的に区別できず、約0.004 HPSv2の範囲内であり、8ビットサイズではFP8出力の最も忠実な再現である(LPIPS 0.243 vs 0.277/0.306、INT8-Q4_Kギャップはゼロである)。
GGUF Q4_K量子化は、発行されたNF4ベースラインと同じオンディスクサイズでスタンドアロン品質に達し、品質メモリフロンティアにおけるPareto選択となる。
さらに、JSONの下では、すべての4つの変種がスタンドアロンの品質で同等に達するように促され、その変種は、画像品質スコアの集計ではなく、忠実さとテキストレンダリングで分離され、また、モデルが生文字列でトリガーされた場合、テキストの正当性がほぼゼロであり、JSONキャプションが期待する55%のOCRの正確なマッチに達することを示しています。
We release the INT8 W8A8 and GGUF Q4_K Quantized weights on Hugging Face under a gated, non-commercial license。
関連論文リスト
- FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error [3.281844093101284]
大規模なMixture-of-Experts(MoE)モデルのトレーニングは、極端な計算とメモリ要求のため、計算的に禁じられている。
FP8-Flow-MoEは,スケールアウェア計算と融合したFP8演算子を備えた量子化一貫性FP8中心のデータフローを特徴とする学習レシピである。
論文 参考訳(メタデータ) (2025-11-04T06:36:59Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design [13.062940916273973]
大規模言語モデル(LLM)は例外的な性能を示すが、かなりのメモリと計算コストを必要とする。
既存のINT4/INT8量子化はこれらのコストを削減するが、しばしば精度を低下させるか、最適効率を欠く。
アルゴリズムの革新とシステムレベルの評価を組み合わせた新しいフレームワークFlexQを提案する。
論文 参考訳(メタデータ) (2025-08-06T12:47:05Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - FP8 versus INT8 for efficient deep learning inference [14.98281493168929]
デバイス上での効率的な推論のために,FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較した。
FP フォーマットは INT フォーマットよりも,専用ハードウェアの計算効率が 50-180% 程度低いことを示す。
提案したFP8フォーマットはトレーニングに適しているが,推測の結果はFP8の専用実装を保証していない。
論文 参考訳(メタデータ) (2023-03-31T10:29:17Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。