2026-05-18 16:42 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA引入基于NVFP4的4位预训练方法，在10T Token规模下验证12B混合Mamba-Transformer模型

NVIDIA提出了一种基于NVFP4 4位微缩放格式的预训练方法，该方法在Blackwell张量核心上原生支持，并通过训练一个120亿参数的混合Mamba-Transformer模型（使用10万亿token）进行了验证。这是公开文献中时间最长的4位预训练运行。相比FP8基线（MMLU-Pro 5-shot准确率62.62%），NVFP4达到了62.58%，几乎无损。该技术仅将线性层中的GEMM操作量化为NVFP4，而嵌入层、归一化层、注意力机制等保持BF16或FP32。四种关键技术——选择性高精度层、随机哈达玛变换、2D权重块缩放和梯度随机舍入——共同确保了训练稳定性。与MXFP4相比，NVFP4在相同token预算下实现了更低的损失，且预计在GB200和GB300上分别实现2倍和3倍的算术吞吐量提升。

来源MarkTechPost作者: Asif Razzaq

文章情报

工程师进阶

要点

NVIDIA的NVFP4 4位微缩放格式在Blackwell张量核心上原生支持，仅将线性层GEMM量化为4位，其余部分保持高精度。
在12B混合Mamba-Transformer上使用10T token训练，MMLU-Pro准确率62.58% vs FP8基线62.62%，几乎无损失。
四种技术确保收敛：选择性BF16层（约16%）、16×16随机哈达玛变换、2D权重块缩放、梯度随机舍入。
NVFP4相比MXFP4在相同数据量下损失更低（1T token后相对损失差1.5% vs 2.5%），GB300上FP8吞吐量提升3倍。

为什么重要

这条新闻值得关注，因为NVIDIA的NVFP4 4位微缩放格式在Blackwell张量核心上原生支持，仅将线性层GEMM量化为4位，其余部分保持高精度。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

NVIDIA近日发布了一项突破性的AI训练技术，基于其Blackwell架构Tensor Core原生支持的NVFP4 4位微缩放格式，成功实现了大规模语言模型的4位预训练。该研究在120亿参数的混合Mamba-Transformer模型上进行了验证，共使用10万亿token进行训练，是公开报道中历时最长的4位精度训练运行。结果显示，该模型在MMLU-Pro基准测试（5-shot）中取得62.58%的准确率，与FP8基线（62.62%）几乎持平，证明了4位预训练在实际应用中的可行性。

NVFP4格式的核心创新在于微缩放设计。与MXFP4采用32元素块和UE8M0缩放因子不同，NVFP4使用16元素块和E4M3缩放因子，并增加了额外的FP32逐张量缩放层。这种设计确保每个块中至少6.25%的值（即块内绝对最大值）能以接近FP8的精度表示，而其余值则以4位精度存储。在Blackwell GPU上，FP4矩阵乘法（GEMM）的吞吐量可达到BF16的4倍（GB200）或6倍（GB300），分别相当于FP8的2倍和3倍加速。

值得关注的是，NVIDIA的4位训练并非全图量化。只有线性层的前向传播（Fprop）、反向传播（Dgrad）和权重梯度（Wgrad）中的GEMM操作才使用NVFP4，而嵌入层、输出头、归一化层、非线性激活函数以及注意力机制中的softmax和QK/V矩阵乘法均保持BF16或FP32。模型主权重、权重梯度和优化器状态则始终以FP32存储。这种选择性量化策略有效平衡了效率与精度。

为了确保训练收敛，研究团队引入了四项关键技术。第一，选择性高精度：约16%的线性层（前2个块和最后8个块）保持在BF16，因为最后几个块对动态范围需求更高。第二，随机哈达玛变换（RHT）：在权重梯度计算中输入应用16×16哈达玛矩阵和随机±1符号向量，将异常值分散为近似高斯分布，无需数学修正。第三，2D权重块缩放：对权重使用16×16块缩放，使前向和反向使用相同的量化表示，避免了因权重转置导致的链式法则违背。第四，梯度随机舍入：以概率方式代替四舍五入，消除系统偏差。消融实验表明，每个组件都必不可少。

在性能对比方面，NVFP4在8B模型上仅用1T token即达到相对损失差约1.5%（对比BF16），而MXFP4需要1.36T token才能达到相同损失（额外36% token开销）。在12B模型上，NVFP4验证损失在稳定阶段保持在FP8的1%以内，在衰减阶段略高于1.5%。下游基准测试中，多数任务与FP8结果一致，仅在HumanEval+和MBPP+等编程任务上表现稍逊（分别低2.5和3.2个百分点），团队将此归因于最终检查点评估的噪声。此外，一种精度切换技术（在训练后期将前向传播切换为BF16）可使相对损失误差从1.5%降至0.5%。

NVIDIA已在Transformer Engine中提供NVFP4支持，该技术有望大幅降低大规模AI训练的计算和存储成本，同时保持模型质量。这对于训练更长上下文、更大规模的模型具有重要意义。