NVIDIA釋出Nemotron-Labs-Diffusion:三模式語言模型,前向令牌數達Qwen3-8B的6倍
NVIDIA推出Nemotron-Labs-Diffusion模型家族,在單一架構中統一自迴歸解碼、擴散並行解碼和自推測解碼。支援3B、8B和14B引數規模,包含基礎、指令和視覺語言變體。自推測模式透過擴散生成候選令牌,再由自迴歸驗證,無需輔助模型。在8B規模下,線性自推測較Qwen3-8B實現6倍前向令牌數,準確率63.61%,優於Qwen3-8B的62.75%。佈署靈活,適用於不同併發場景。
文章情報
要點
- Nemotron-Labs-Diffusion是NVIDIA研發的三模式語言模型,統一自迴歸、擴散和自推測解碼於一體,無需修改架構。
- 8B模型自推測模式可達5.99×令牌/前向,準確率63.61%,超過Qwen3-8B。
- 訓練採用聯合AR-擴散目標,兩階段訓練,並從Ministral3基礎模型初始化,在256塊H100 GPU上進行。
- 模型已開源,相容Hugging Face和transformers≥5.0.0,支援即插即用的三種解碼模式。
為什麼重要
這條新聞值得關注,因為Nemotron-Labs-Diffusion是NVIDIA研發的三模式語言模型,統一自迴歸、擴散和自推測解碼於一體,無需修改架構。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
NVIDIA研究團隊近日釋出了Nemotron-Labs-Diffusion,這是一個新一代語言模型家族,在單一架構中融合了三種解碼模式,無需為不同場景準備多個模型。該模型支援自迴歸(AR)解碼、基於擴散的並行解碼以及自推測解碼,可根據部署需要靈活切換。模型提供了3B、8B和14B三種引數規模,幷包括基礎版、指令微調版和視覺語言變體。
傳統自迴歸模型逐令牌從左到右生成,每個令牌依賴前序令牌,導致GPU利用率低,尤其在低批次部署中表現明顯。擴散語言模型則可在一次前向傳播中對多個令牌並行去噪,從而提升吞吐量。Nemotron-Labs-Diffusion透過聯合訓練目標,同時最佳化AR和擴散損失,權重α設為0.3。兩階段訓練先以純AR目標訓練1萬億令牌,再引入聯合目標訓練3000億令牌,累計帶來16.05%的準確率提升。所有模型從預訓練的Ministral3模型初始化,在256塊NVIDIA H100 GPU上完成訓練。
在解碼方式上,自推測模式利用擴散途徑並行生成k個候選令牌,再由AR途徑透過因果注意驗證,接受最長連續字首。這一過程無需外部草稿模型或輔助預測頭。透過LoRA介面卡(僅0.4%引數量)最佳化擴散草稿通道,可進一步提升令牌產出:在3B、8B和14B規模下,令牌/前向分別提升14.4%、32.5%和27.6%,且準確率幾乎不變。
基準測試方面,在10任務指令評估中,Nemotron-Labs-Diffusion 8B的AR模式平均準確率達63.61%,優於Qwen3-8B的62.75%和Ministral3-8B-Instruct的58.02%。擴散模式以2.57倍令牌/前向達到63.18%準確率;LoRA線性自推測則以5.99倍令牌/前向達到62.81%準確率。在SPEED-Bench測試中,線性自推測在GB200上達到Qwen3-8B 4倍的吞吐量,比Eagle3快2.4倍。接受長度分析顯示,NLD自推測平均接受5.46令牌/步(使用LoRA後達6.82),遠高於Eagle3的2.75和Qwen3-9B-MTP的4.24。
視覺語言模型Nemotron-Labs-Diffusion-VLM-8B擴充套件了相同框架,線上性自推測模式下實現3.63×至7.45×令牌/前向加速,而準確率僅下降0.1%。所有模型均以開源形式釋出,支援使用transformers庫載入,提供ar_generate()、generate()和linear_spec_generate()三種呼叫方法。