2026-05-20 18:41 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA发布Nemotron-Labs-Diffusion：三模式语言模型，前向令牌数达Qwen3-8B的6倍

NVIDIA推出Nemotron-Labs-Diffusion模型家族，在单一架构中统一自回归解码、扩散并行解码和自推测解码。支持3B、8B和14B参数规模，包含基础、指令和视觉语言变体。自推测模式通过扩散生成候选令牌，再由自回归验证，无需辅助模型。在8B规模下，线性自推测较Qwen3-8B实现6倍前向令牌数，准确率63.61%，优于Qwen3-8B的62.75%。布署灵活，适用于不同并发场景。

来源MarkTechPost作者: Asif Razzaq

文章情报

工程师进阶

要点

Nemotron-Labs-Diffusion是NVIDIA研发的三模式语言模型，统一自回归、扩散和自推测解码于一体，无需修改架构。
8B模型自推测模式可达5.99×令牌/前向，准确率63.61%，超过Qwen3-8B。
训练采用联合AR-扩散目标，两阶段训练，并从Ministral3基础模型初始化，在256块H100 GPU上进行。
模型已开源，兼容Hugging Face和transformers≥5.0.0，支持即插即用的三种解码模式。

为什么重要

这条新闻值得关注，因为Nemotron-Labs-Diffusion是NVIDIA研发的三模式语言模型，统一自回归、扩散和自推测解码于一体，无需修改架构。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

NVIDIA研究团队近日发布了Nemotron-Labs-Diffusion，这是一个新一代语言模型家族，在单一架构中融合了三种解码模式，无需为不同场景准备多个模型。该模型支持自回归（AR）解码、基于扩散的并行解码以及自推测解码，可根据部署需要灵活切换。模型提供了3B、8B和14B三种参数规模，并包括基础版、指令微调版和视觉语言变体。

传统自回归模型逐令牌从左到右生成，每个令牌依赖前序令牌，导致GPU利用率低，尤其在低批量部署中表现明显。扩散语言模型则可在一次前向传播中对多个令牌并行去噪，从而提升吞吐量。Nemotron-Labs-Diffusion通过联合训练目标，同时优化AR和扩散损失，权重α设为0.3。两阶段训练先以纯AR目标训练1万亿令牌，再引入联合目标训练3000亿令牌，累计带来16.05%的准确率提升。所有模型从预训练的Ministral3模型初始化，在256块NVIDIA H100 GPU上完成训练。

在解码方式上，自推测模式利用扩散途径并行生成k个候选令牌，再由AR途径通过因果注意验证，接受最长连续前缀。这一过程无需外部草稿模型或辅助预测头。通过LoRA适配器（仅0.4%参数量）优化扩散草稿通道，可进一步提升令牌产出：在3B、8B和14B规模下，令牌/前向分别提升14.4%、32.5%和27.6%，且准确率几乎不变。

基准测试方面，在10任务指令评估中，Nemotron-Labs-Diffusion 8B的AR模式平均准确率达63.61%，优于Qwen3-8B的62.75%和Ministral3-8B-Instruct的58.02%。扩散模式以2.57倍令牌/前向达到63.18%准确率；LoRA线性自推测则以5.99倍令牌/前向达到62.81%准确率。在SPEED-Bench测试中，线性自推测在GB200上达到Qwen3-8B 4倍的吞吐量，比Eagle3快2.4倍。接受长度分析显示，NLD自推测平均接受5.46令牌/步（使用LoRA后达6.82），远高于Eagle3的2.75和Qwen3-9B-MTP的4.24。

视觉语言模型Nemotron-Labs-Diffusion-VLM-8B扩展了相同框架，在线性自推测模式下实现3.63×至7.45×令牌/前向加速，而准确率仅下降0.1%。所有模型均以开源形式发布，支持使用transformers库加载，提供ar_generate()、generate()和linear_spec_generate()三种调用方法。