NVIDIA引入基于NVFP4的4位预训练方法,在10T Token规模下验证12B混合Mamba-Transformer模型
NVIDIA提出了一种基于NVFP4 4位微缩放格式的预训练方法,该方法在Blackwell张量核心上原生支持,并通过训练一个120亿参数的混合Mamba-Transformer模型(使用10万亿token)进行了验证。这是公开文献中时间最长的4位预训练运行。相比FP8基线(MMLU-Pro 5-shot准确率62.62%),NVFP4达到了62.58%,几乎无损。该技术仅将线性层中的GEMM操作量化为NVFP4,而嵌入层、归一化层、注意力机制等保持BF16或FP32。四种关键技术——选择性高精度层、随机哈达玛变换、2D权重块缩放和梯度随机舍入——共同确保了训练稳定性。与MXFP4相比,NVFP4在相同token预算下实现了更低的损失,且预计在GB200和GB300上分别实现2倍和3倍的算术吞吐量提升。
文章情报
要点
- NVIDIA的NVFP4 4位微缩放格式在Blackwell张量核心上原生支持,仅将线性层GEMM量化为4位,其余部分保持高精度。
- 在12B混合Mamba-Transformer上使用10T token训练,MMLU-Pro准确率62.58% vs FP8基线62.62%,几乎无损失。
- 四种技术确保收敛:选择性BF16层(约16%)、16×16随机哈达玛变换、2D权重块缩放、梯度随机舍入。
- NVFP4相比MXFP4在相同数据量下损失更低(1T token后相对损失差1.5% vs 2.5%),GB300上FP8吞吐量提升3倍。
为什么重要
这条新闻值得关注,因为NVIDIA的NVFP4 4位微缩放格式在Blackwell张量核心上原生支持,仅将线性层GEMM量化为4位,其余部分保持高精度。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
NVIDIA近日发布了一项突破性的AI训练技术,基于其Blackwell架构Tensor Core原生支持的NVFP4 4位微缩放格式,成功实现了大规模语言模型的4位预训练。该研究在120亿参数的混合Mamba-Transformer模型上进行了验证,共使用10万亿token进行训练,是公开报道中历时最长的4位精度训练运行。结果显示,该模型在MMLU-Pro基准测试(5-shot)中取得62.58%的准确率,与FP8基线(62.62%)几乎持平,证明了4位预训练在实际应用中的可行性。
NVFP4格式的核心创新在于微缩放设计。与MXFP4采用32元素块和UE8M0缩放因子不同,NVFP4使用16元素块和E4M3缩放因子,并增加了额外的FP32逐张量缩放层。这种设计确保每个块中至少6.25%的值(即块内绝对最大值)能以接近FP8的精度表示,而其余值则以4位精度存储。在Blackwell GPU上,FP4矩阵乘法(GEMM)的吞吐量可达到BF16的4倍(GB200)或6倍(GB300),分别相当于FP8的2倍和3倍加速。
值得关注的是,NVIDIA的4位训练并非全图量化。只有线性层的前向传播(Fprop)、反向传播(Dgrad)和权重梯度(Wgrad)中的GEMM操作才使用NVFP4,而嵌入层、输出头、归一化层、非线性激活函数以及注意力机制中的softmax和QK/V矩阵乘法均保持BF16或FP32。模型主权重、权重梯度和优化器状态则始终以FP32存储。这种选择性量化策略有效平衡了效率与精度。
为了确保训练收敛,研究团队引入了四项关键技术。第一,选择性高精度:约16%的线性层(前2个块和最后8个块)保持在BF16,因为最后几个块对动态范围需求更高。第二,随机哈达玛变换(RHT):在权重梯度计算中输入应用16×16哈达玛矩阵和随机±1符号向量,将异常值分散为近似高斯分布,无需数学修正。第三,2D权重块缩放:对权重使用16×16块缩放,使前向和反向使用相同的量化表示,避免了因权重转置导致的链式法则违背。第四,梯度随机舍入:以概率方式代替四舍五入,消除系统偏差。消融实验表明,每个组件都必不可少。
在性能对比方面,NVFP4在8B模型上仅用1T token即达到相对损失差约1.5%(对比BF16),而MXFP4需要1.36T token才能达到相同损失(额外36% token开销)。在12B模型上,NVFP4验证损失在稳定阶段保持在FP8的1%以内,在衰减阶段略高于1.5%。下游基准测试中,多数任务与FP8结果一致,仅在HumanEval+和MBPP+等编程任务上表现稍逊(分别低2.5和3.2个百分点),团队将此归因于最终检查点评估的噪声。此外,一种精度切换技术(在训练后期将前向传播切换为BF16)可使相对损失误差从1.5%降至0.5%。
NVIDIA已在Transformer Engine中提供NVFP4支持,该技术有望大幅降低大规模AI训练的计算和存储成本,同时保持模型质量。这对于训练更长上下文、更大规模的模型具有重要意义。