2026-05-20 18:41 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA釋出Nemotron-Labs-Diffusion：三模式語言模型，前向令牌數達Qwen3-8B的6倍

NVIDIA推出Nemotron-Labs-Diffusion模型家族，在單一架構中統一自迴歸解碼、擴散並行解碼和自推測解碼。支援3B、8B和14B引數規模，包含基礎、指令和視覺語言變體。自推測模式透過擴散生成候選令牌，再由自迴歸驗證，無需輔助模型。在8B規模下，線性自推測較Qwen3-8B實現6倍前向令牌數，準確率63.61%，優於Qwen3-8B的62.75%。佈署靈活，適用於不同併發場景。

來源MarkTechPost作者: Asif Razzaq

文章情報

工程師進階

要點

Nemotron-Labs-Diffusion是NVIDIA研發的三模式語言模型，統一自迴歸、擴散和自推測解碼於一體，無需修改架構。
8B模型自推測模式可達5.99×令牌/前向，準確率63.61%，超過Qwen3-8B。
訓練採用聯合AR-擴散目標，兩階段訓練，並從Ministral3基礎模型初始化，在256塊H100 GPU上進行。
模型已開源，相容Hugging Face和transformers≥5.0.0，支援即插即用的三種解碼模式。

為什麼重要

這條新聞值得關注，因為Nemotron-Labs-Diffusion是NVIDIA研發的三模式語言模型，統一自迴歸、擴散和自推測解碼於一體，無需修改架構。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

NVIDIA研究團隊近日釋出了Nemotron-Labs-Diffusion，這是一個新一代語言模型家族，在單一架構中融合了三種解碼模式，無需為不同場景準備多個模型。該模型支援自迴歸（AR）解碼、基於擴散的並行解碼以及自推測解碼，可根據部署需要靈活切換。模型提供了3B、8B和14B三種引數規模，幷包括基礎版、指令微調版和視覺語言變體。

傳統自迴歸模型逐令牌從左到右生成，每個令牌依賴前序令牌，導致GPU利用率低，尤其在低批次部署中表現明顯。擴散語言模型則可在一次前向傳播中對多個令牌並行去噪，從而提升吞吐量。Nemotron-Labs-Diffusion透過聯合訓練目標，同時最佳化AR和擴散損失，權重α設為0.3。兩階段訓練先以純AR目標訓練1萬億令牌，再引入聯合目標訓練3000億令牌，累計帶來16.05%的準確率提升。所有模型從預訓練的Ministral3模型初始化，在256塊NVIDIA H100 GPU上完成訓練。

在解碼方式上，自推測模式利用擴散途徑並行生成k個候選令牌，再由AR途徑透過因果注意驗證，接受最長連續字首。這一過程無需外部草稿模型或輔助預測頭。透過LoRA介面卡（僅0.4%引數量）最佳化擴散草稿通道，可進一步提升令牌產出：在3B、8B和14B規模下，令牌/前向分別提升14.4%、32.5%和27.6%，且準確率幾乎不變。

基準測試方面，在10任務指令評估中，Nemotron-Labs-Diffusion 8B的AR模式平均準確率達63.61%，優於Qwen3-8B的62.75%和Ministral3-8B-Instruct的58.02%。擴散模式以2.57倍令牌/前向達到63.18%準確率；LoRA線性自推測則以5.99倍令牌/前向達到62.81%準確率。在SPEED-Bench測試中，線性自推測在GB200上達到Qwen3-8B 4倍的吞吐量，比Eagle3快2.4倍。接受長度分析顯示，NLD自推測平均接受5.46令牌/步（使用LoRA後達6.82），遠高於Eagle3的2.75和Qwen3-9B-MTP的4.24。

視覺語言模型Nemotron-Labs-Diffusion-VLM-8B擴充套件了相同框架，線上性自推測模式下實現3.63×至7.45×令牌/前向加速，而準確率僅下降0.1%。所有模型均以開源形式釋出，支援使用transformers庫載入，提供ar_generate()、generate()和linear_spec_generate()三種呼叫方法。