2026-05-18 16:42 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA引入基於NVFP4的4位預訓練方法，在10T Token規模下驗證12B混合Mamba-Transformer模型

NVIDIA提出了一種基於NVFP4 4位微縮放格式的預訓練方法，該方法在Blackwell張量核心上原生支援，並透過訓練一個120億引數的混合Mamba-Transformer模型（使用10萬億token）進行了驗證。這是公開文獻中時間最長的4位預訓練執行。相比FP8基線（MMLU-Pro 5-shot準確率62.62%），NVFP4達到了62.58%，幾乎無損。該技術僅將線性層中的GEMM操作量化為NVFP4，而嵌入層、歸一化層、注意力機制等保持BF16或FP32。四種關鍵技術——選擇性高精度層、隨機哈達瑪變換、2D權重塊縮放和梯度隨機舍入——共同確保了訓練穩定性。與MXFP4相比，NVFP4在相同token預算下實現了更低的損失，且預計在GB200和GB300上分別實現2倍和3倍的算術吞吐量提升。

來源MarkTechPost作者: Asif Razzaq

文章情報

工程師進階

要點

NVIDIA的NVFP4 4位微縮放格式在Blackwell張量核心上原生支援，僅將線性層GEMM量化為4位，其餘部分保持高精度。
在12B混合Mamba-Transformer上使用10T token訓練，MMLU-Pro準確率62.58% vs FP8基線62.62%，幾乎無損失。
四種技術確保收斂：選擇性BF16層（約16%）、16×16隨機哈達瑪變換、2D權重塊縮放、梯度隨機舍入。
NVFP4相比MXFP4在相同資料量下損失更低（1T token後相對損失差1.5% vs 2.5%），GB300上FP8吞吐量提升3倍。

為什麼重要

這條新聞值得關注，因為NVIDIA的NVFP4 4位微縮放格式在Blackwell張量核心上原生支援，僅將線性層GEMM量化為4位，其餘部分保持高精度。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

NVIDIA近日釋出了一項突破性的AI訓練技術，基於其Blackwell架構Tensor Core原生支援的NVFP4 4位微縮放格式，成功實現了大規模語言模型的4位預訓練。該研究在120億引數的混合Mamba-Transformer模型上進行了驗證，共使用10萬億token進行訓練，是公開報道中歷時最長的4位精度訓練執行。結果顯示，該模型在MMLU-Pro基準測試（5-shot）中取得62.58%的準確率，與FP8基線（62.62%）幾乎持平，證明了4位預訓練在實際應用中的可行性。

NVFP4格式的核心創新在於微縮放設計。與MXFP4採用32元素塊和UE8M0縮放因子不同，NVFP4使用16元素塊和E4M3縮放因子，並增加了額外的FP32逐張量縮放層。這種設計確保每個塊中至少6.25%的值（即塊內絕對最大值）能以接近FP8的精度表示，而其餘值則以4位精度儲存。在Blackwell GPU上，FP4矩陣乘法（GEMM）的吞吐量可達到BF16的4倍（GB200）或6倍（GB300），分別相當於FP8的2倍和3倍加速。

值得關注的是，NVIDIA的4位訓練並非全圖量化。只有線性層的前向傳播（Fprop）、反向傳播（Dgrad）和權重梯度（Wgrad）中的GEMM操作才使用NVFP4，而嵌入層、輸出頭、歸一化層、非線性啟用函式以及注意力機制中的softmax和QK/V矩陣乘法均保持BF16或FP32。模型主權重、權重梯度和最佳化器狀態則始終以FP32儲存。這種選擇性量化策略有效平衡了效率與精度。

為了確保訓練收斂，研究團隊引入了四項關鍵技術。第一，選擇性高精度：約16%的線性層（前2個塊和最後8個塊）保持在BF16，因為最後幾個塊對動態範圍需求更高。第二，隨機哈達瑪變換（RHT）：在權重梯度計算中輸入應用16×16哈達瑪矩陣和隨機±1符號向量，將異常值分散為近似高斯分佈，無需數學修正。第三，2D權重塊縮放：對權重使用16×16塊縮放，使前向和反向使用相同的量化表示，避免了因權重轉置導致的鏈式法則違背。第四，梯度隨機舍入：以機率方式代替四捨五入，消除系統偏差。消融實驗表明，每個元件都必不可少。

在效能對比方面，NVFP4在8B模型上僅用1T token即達到相對損失差約1.5%（對比BF16），而MXFP4需要1.36T token才能達到相同損失（額外36% token開銷）。在12B模型上，NVFP4驗證損失在穩定階段保持在FP8的1%以內，在衰減階段略高於1.5%。下游基準測試中，多數任務與FP8結果一致，僅在HumanEval+和MBPP+等程式設計任務上表現稍遜（分別低2.5和3.2個百分點），團隊將此歸因於最終檢查點評估的噪聲。此外，一種精度切換技術（在訓練後期將前向傳播切換為BF16）可使相對損失誤差從1.5%降至0.5%。

NVIDIA已在Transformer Engine中提供NVFP4支援，該技術有望大幅降低大規模AI訓練的計算和儲存成本，同時保持模型質量。這對於訓練更長上下文、更大規模的模型具有重要意義。