NVIDIA引入基於NVFP4的4位預訓練方法,在10T Token規模下驗證12B混合Mamba-Transformer模型
NVIDIA提出了一種基於NVFP4 4位微縮放格式的預訓練方法,該方法在Blackwell張量核心上原生支援,並透過訓練一個120億引數的混合Mamba-Transformer模型(使用10萬億token)進行了驗證。這是公開文獻中時間最長的4位預訓練執行。相比FP8基線(MMLU-Pro 5-shot準確率62.62%),NVFP4達到了62.58%,幾乎無損。該技術僅將線性層中的GEMM操作量化為NVFP4,而嵌入層、歸一化層、注意力機制等保持BF16或FP32。四種關鍵技術——選擇性高精度層、隨機哈達瑪變換、2D權重塊縮放和梯度隨機舍入——共同確保了訓練穩定性。與MXFP4相比,NVFP4在相同token預算下實現了更低的損失,且預計在GB200和GB300上分別實現2倍和3倍的算術吞吐量提升。
文章情報
要點
- NVIDIA的NVFP4 4位微縮放格式在Blackwell張量核心上原生支援,僅將線性層GEMM量化為4位,其餘部分保持高精度。
- 在12B混合Mamba-Transformer上使用10T token訓練,MMLU-Pro準確率62.58% vs FP8基線62.62%,幾乎無損失。
- 四種技術確保收斂:選擇性BF16層(約16%)、16×16隨機哈達瑪變換、2D權重塊縮放、梯度隨機舍入。
- NVFP4相比MXFP4在相同資料量下損失更低(1T token後相對損失差1.5% vs 2.5%),GB300上FP8吞吐量提升3倍。
為什麼重要
這條新聞值得關注,因為NVIDIA的NVFP4 4位微縮放格式在Blackwell張量核心上原生支援,僅將線性層GEMM量化為4位,其餘部分保持高精度。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
NVIDIA近日釋出了一項突破性的AI訓練技術,基於其Blackwell架構Tensor Core原生支援的NVFP4 4位微縮放格式,成功實現了大規模語言模型的4位預訓練。該研究在120億引數的混合Mamba-Transformer模型上進行了驗證,共使用10萬億token進行訓練,是公開報道中歷時最長的4位精度訓練執行。結果顯示,該模型在MMLU-Pro基準測試(5-shot)中取得62.58%的準確率,與FP8基線(62.62%)幾乎持平,證明了4位預訓練在實際應用中的可行性。
NVFP4格式的核心創新在於微縮放設計。與MXFP4採用32元素塊和UE8M0縮放因子不同,NVFP4使用16元素塊和E4M3縮放因子,並增加了額外的FP32逐張量縮放層。這種設計確保每個塊中至少6.25%的值(即塊內絕對最大值)能以接近FP8的精度表示,而其餘值則以4位精度儲存。在Blackwell GPU上,FP4矩陣乘法(GEMM)的吞吐量可達到BF16的4倍(GB200)或6倍(GB300),分別相當於FP8的2倍和3倍加速。
值得關注的是,NVIDIA的4位訓練並非全圖量化。只有線性層的前向傳播(Fprop)、反向傳播(Dgrad)和權重梯度(Wgrad)中的GEMM操作才使用NVFP4,而嵌入層、輸出頭、歸一化層、非線性啟用函式以及注意力機制中的softmax和QK/V矩陣乘法均保持BF16或FP32。模型主權重、權重梯度和最佳化器狀態則始終以FP32儲存。這種選擇性量化策略有效平衡了效率與精度。
為了確保訓練收斂,研究團隊引入了四項關鍵技術。第一,選擇性高精度:約16%的線性層(前2個塊和最後8個塊)保持在BF16,因為最後幾個塊對動態範圍需求更高。第二,隨機哈達瑪變換(RHT):在權重梯度計算中輸入應用16×16哈達瑪矩陣和隨機±1符號向量,將異常值分散為近似高斯分佈,無需數學修正。第三,2D權重塊縮放:對權重使用16×16塊縮放,使前向和反向使用相同的量化表示,避免了因權重轉置導致的鏈式法則違背。第四,梯度隨機舍入:以機率方式代替四捨五入,消除系統偏差。消融實驗表明,每個元件都必不可少。
在效能對比方面,NVFP4在8B模型上僅用1T token即達到相對損失差約1.5%(對比BF16),而MXFP4需要1.36T token才能達到相同損失(額外36% token開銷)。在12B模型上,NVFP4驗證損失在穩定階段保持在FP8的1%以內,在衰減階段略高於1.5%。下游基準測試中,多數任務與FP8結果一致,僅在HumanEval+和MBPP+等程式設計任務上表現稍遜(分別低2.5和3.2個百分點),團隊將此歸因於最終檢查點評估的噪聲。此外,一種精度切換技術(在訓練後期將前向傳播切換為BF16)可使相對損失誤差從1.5%降至0.5%。
NVIDIA已在Transformer Engine中提供NVFP4支援,該技術有望大幅降低大規模AI訓練的計算和儲存成本,同時保持模型質量。這對於訓練更長上下文、更大規模的模型具有重要意義。