NVIDIA发布Nemotron-Labs-Diffusion:三模式语言模型,前向令牌数达Qwen3-8B的6倍
NVIDIA推出Nemotron-Labs-Diffusion模型家族,在单一架构中统一自回归解码、扩散并行解码和自推测解码。支持3B、8B和14B参数规模,包含基础、指令和视觉语言变体。自推测模式通过扩散生成候选令牌,再由自回归验证,无需辅助模型。在8B规模下,线性自推测较Qwen3-8B实现6倍前向令牌数,准确率63.61%,优于Qwen3-8B的62.75%。布署灵活,适用于不同并发场景。
文章情报
要点
- Nemotron-Labs-Diffusion是NVIDIA研发的三模式语言模型,统一自回归、扩散和自推测解码于一体,无需修改架构。
- 8B模型自推测模式可达5.99×令牌/前向,准确率63.61%,超过Qwen3-8B。
- 训练采用联合AR-扩散目标,两阶段训练,并从Ministral3基础模型初始化,在256块H100 GPU上进行。
- 模型已开源,兼容Hugging Face和transformers≥5.0.0,支持即插即用的三种解码模式。
为什么重要
这条新闻值得关注,因为Nemotron-Labs-Diffusion是NVIDIA研发的三模式语言模型,统一自回归、扩散和自推测解码于一体,无需修改架构。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
NVIDIA研究团队近日发布了Nemotron-Labs-Diffusion,这是一个新一代语言模型家族,在单一架构中融合了三种解码模式,无需为不同场景准备多个模型。该模型支持自回归(AR)解码、基于扩散的并行解码以及自推测解码,可根据部署需要灵活切换。模型提供了3B、8B和14B三种参数规模,并包括基础版、指令微调版和视觉语言变体。
传统自回归模型逐令牌从左到右生成,每个令牌依赖前序令牌,导致GPU利用率低,尤其在低批量部署中表现明显。扩散语言模型则可在一次前向传播中对多个令牌并行去噪,从而提升吞吐量。Nemotron-Labs-Diffusion通过联合训练目标,同时优化AR和扩散损失,权重α设为0.3。两阶段训练先以纯AR目标训练1万亿令牌,再引入联合目标训练3000亿令牌,累计带来16.05%的准确率提升。所有模型从预训练的Ministral3模型初始化,在256块NVIDIA H100 GPU上完成训练。
在解码方式上,自推测模式利用扩散途径并行生成k个候选令牌,再由AR途径通过因果注意验证,接受最长连续前缀。这一过程无需外部草稿模型或辅助预测头。通过LoRA适配器(仅0.4%参数量)优化扩散草稿通道,可进一步提升令牌产出:在3B、8B和14B规模下,令牌/前向分别提升14.4%、32.5%和27.6%,且准确率几乎不变。
基准测试方面,在10任务指令评估中,Nemotron-Labs-Diffusion 8B的AR模式平均准确率达63.61%,优于Qwen3-8B的62.75%和Ministral3-8B-Instruct的58.02%。扩散模式以2.57倍令牌/前向达到63.18%准确率;LoRA线性自推测则以5.99倍令牌/前向达到62.81%准确率。在SPEED-Bench测试中,线性自推测在GB200上达到Qwen3-8B 4倍的吞吐量,比Eagle3快2.4倍。接受长度分析显示,NLD自推测平均接受5.46令牌/步(使用LoRA后达6.82),远高于Eagle3的2.75和Qwen3-9B-MTP的4.24。
视觉语言模型Nemotron-Labs-Diffusion-VLM-8B扩展了相同框架,在线性自推测模式下实现3.63×至7.45×令牌/前向加速,而准确率仅下降0.1%。所有模型均以开源形式发布,支持使用transformers库加载,提供ar_generate()、generate()和linear_spec_generate()三种调用方法。