AI News HubLIVE
站内改写

NVIDIA發佈Nemotron-Labs-Diffusion:三模式語言模型,前向令牌數達Qwen3-8B的6倍

NVIDIA推出Nemotron-Labs-Diffusion模型家族,在單一架構中統一自迴歸解碼、擴散並行解碼和自推測解碼。支持3B、8B和14B參數規模,包含基礎、指令和視覺語言變體。自推測模式通過擴散生成候選令牌,再由自迴歸驗證,無需輔助模型。在8B規模下,線性自推測較Qwen3-8B實現6倍前向令牌數,準確率63.61%,優於Qwen3-8B的62.75%。佈署靈活,適用於不同併發場景。

文章情報

工程師進階

要點

  • Nemotron-Labs-Diffusion是NVIDIA研發的三模式語言模型,統一自迴歸、擴散和自推測解碼於一體,無需修改架構。
  • 8B模型自推測模式可達5.99×令牌/前向,準確率63.61%,超過Qwen3-8B。
  • 訓練採用聯合AR-擴散目標,兩階段訓練,並從Ministral3基礎模型初始化,在256塊H100 GPU上進行。
  • 模型已開源,兼容Hugging Face和transformers≥5.0.0,支持即插即用的三種解碼模式。

為甚麼重要

這條新聞值得關注,因為Nemotron-Labs-Diffusion是NVIDIA研發的三模式語言模型,統一自迴歸、擴散和自推測解碼於一體,無需修改架構。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

NVIDIA研究團隊近日發佈了Nemotron-Labs-Diffusion,這是一個新一代語言模型家族,在單一架構中融合了三種解碼模式,無需為不同場景準備多個模型。該模型支持自迴歸(AR)解碼、基於擴散的並行解碼以及自推測解碼,可根據部署需要靈活切換。模型提供了3B、8B和14B三種參數規模,幷包括基礎版、指令微調版和視覺語言變體。

傳統自迴歸模型逐令牌從左到右生成,每個令牌依賴前序令牌,導致GPU利用率低,尤其在低批量部署中表現明顯。擴散語言模型則可在一次前向傳播中對多個令牌並行去噪,從而提升吞吐量。Nemotron-Labs-Diffusion通過聯合訓練目標,同時優化AR和擴散損失,權重α設為0.3。兩階段訓練先以純AR目標訓練1萬億令牌,再引入聯合目標訓練3000億令牌,累計帶來16.05%的準確率提升。所有模型從預訓練的Ministral3模型初始化,在256塊NVIDIA H100 GPU上完成訓練。

在解碼方式上,自推測模式利用擴散途徑並行生成k個候選令牌,再由AR途徑通過因果注意驗證,接受最長連續前綴。這一過程無需外部草稿模型或輔助預測頭。通過LoRA適配器(僅0.4%參數量)優化擴散草稿通道,可進一步提升令牌產出:在3B、8B和14B規模下,令牌/前向分別提升14.4%、32.5%和27.6%,且準確率幾乎不變。

基準測試方面,在10任務指令評估中,Nemotron-Labs-Diffusion 8B的AR模式平均準確率達63.61%,優於Qwen3-8B的62.75%和Ministral3-8B-Instruct的58.02%。擴散模式以2.57倍令牌/前向達到63.18%準確率;LoRA線性自推測則以5.99倍令牌/前向達到62.81%準確率。在SPEED-Bench測試中,線性自推測在GB200上達到Qwen3-8B 4倍的吞吐量,比Eagle3快2.4倍。接受長度分析顯示,NLD自推測平均接受5.46令牌/步(使用LoRA後達6.82),遠高於Eagle3的2.75和Qwen3-9B-MTP的4.24。

視覺語言模型Nemotron-Labs-Diffusion-VLM-8B擴展了相同框架,在線性自推測模式下實現3.63×至7.45×令牌/前向加速,而準確率僅下降0.1%。所有模型均以開源形式發佈,支持使用transformers庫加載,提供ar_generate()、generate()和linear_spec_generate()三種調用方法。