論文の概要: Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
- arxiv url: http://arxiv.org/abs/2606.20381v1
- Date: Thu, 18 Jun 2026 15:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.953979
- Title: Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
- Title(参考訳): LLM FP4プレトレーニングにおける収縮バイアスの再考:幾何学的起源、系統的影響、UFP4の合成
- Authors: Qian Zhao, Kunlong Chen, Changxin Tian, Zhonghui Jiang, Haitao Zhang, Chaofan Yu, Peijie Jiang, Mingliang Gong, Jia Liu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: ラウンドリングをdYのみに制限しながら,RHTを3つのトレーニングGEMMすべてに適用する4ビットトレーニングレシピを提案する。
Dense 1.5B、MoE 7.9B、MoE 124Bの長期事前訓練では、UFP4は強いE2M1ベースラインよりも低いBF16相対損失劣化を達成する。
この結果から,将来の加速器はE1M2/INT4スタイルの4ビットグリッドを,E2M1とともに第一級の訓練プリミティブとしてサポートすべきであることが示唆された。
- 参考スコア(独自算出の注目度): 31.895766254664167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: FP4 training promises substantial reductions in memory and computation cost for LLM pretraining, yet current FP4 hardware paths and recipes, including NVIDIA Blackwell/Rubin-class systems and AMD MI350-series GPUs, remain centered on E2M1 data elements. In this study, we identify a fundamental limitation of that choice: non-uniform formats such as E2M1 inherently suffer from Shrinkage Bias, a systematic negative rounding error caused by the geometric asymmetry of their representable bins. We show that this bias accumulates multiplicatively across layers and is amplified by the Random Hadamard Transform (RHT), providing a unified explanation for the training instability observed in existing E2M1-based FP4 recipes. In contrast, uniform grids (E1M2/INT4) bypass this grid-geometry error and better convert the improved bucket utilization from RHT into higher quantization quality. Based on this finding, we propose UFP4, a uniform 4-bit training recipe that applies RHT to all three training GEMMs while restricting stochastic rounding to dY alone. On Dense 1.5B, MoE 7.9B, and MoE 124B long-run pretraining, UFP4 consistently achieves lower BF16-relative loss degradation than strong E2M1-based baselines, supported by scaling-law analysis and ablation studies. Our results suggest that future accelerators should support E1M2/INT4-style uniform 4-bit grids as first-class training primitives alongside E2M1.
- Abstract(参考訳): FP4トレーニングは、LLM事前トレーニングのメモリと計算コストを大幅に削減することを約束するが、現在のFP4ハードウェアパスとレシピ(NVIDIA Blackwell/RubinクラスシステムやAMD MI350シリーズGPUなど)は、E2M1データ要素に集中している。
本研究では,E2M1 のような非一様形式は本質的にシュリンカジ・ビアス(Shrinkage Bias)に悩まされるが,これは表現可能なビンの幾何学的非対称性によって生じる体系的負の丸め誤差である。
我々は,このバイアスが層間を多重的に蓄積し,Random Hadamard Transform (RHT) によって増幅されることを示し,既存のE2M1ベースのFP4レシピで見られるトレーニング不安定性の統一的な説明を提供する。
対照的に、一様格子(E1M2/INT4)はこの格子形状誤差を回避し、改良されたバケット利用率をRHTから高い量子化品質に変換する。
そこで本研究では,RHTを3つのトレーニングGEMMすべてに適用し,確率的ラウンドリングをdYのみに制限した4ビットトレーニングレシピであるUFP4を提案する。
Dense 1.5B、MoE 7.9B、MoE 124Bの長期事前トレーニングでは、UFP4は拡張法解析とアブレーション研究によって支持される強力なE2M1ベースラインよりもBF16相対損失の減少を一貫して達成している。
この結果から,将来の加速器はE1M2/INT4スタイルの4ビットグリッドを,E2M1とともに第一級の訓練プリミティブとしてサポートすべきであることが示唆された。
関連論文リスト
- Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation [40.140261007984215]
我々は,NVFP4における量子化学習のための技術の現状を,マイクロスケールフォーマットのための新しい非バイアス量子化ルーチンによって改善する。
解析学的に、Quartet II はすべての行列乗法において一貫したより良い勾配推定を達成できることを示す。
論文 参考訳(メタデータ) (2026-01-30T10:39:11Z) - TetraJet-v2: Accurate NVFP4 Training for Large Language Models with Oscillation Suppression and Outlier Control [24.897675627585798]
大規模言語モデル(LLM)トレーニングは違法に高価であり、低精度完全量子化トレーニング(FQT)への関心を喚起している。
我々は,NVFP4をすべての線形層における活性化,重み,勾配に利用した,エンドツーエンドの4ビットFQT法であるTetraJet-v2を紹介する。
論文 参考訳(メタデータ) (2025-10-31T14:57:16Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - Oscillation-Reduced MXFP4 Training for Vision Transformers [19.642508885867375]
FP4の精度で事前学習するトランスフォーマーには、かなりの精度が失われる。
MXFP4データフォーマットのトレーニングは依然として大きな劣化をもたらす。
より正確なFP4トレーニングのための新しいトレーニング手法TetraJetを提案する。
論文 参考訳(メタデータ) (2025-02-28T08:51:55Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。