2026-05-23 08:02 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

利用 Nemotron-Labs 扩散语言模型实现接近光速的文本生成

NVIDIA 发布 Nemotron-Labs 扩散语言模型系列，通过并行生成与迭代精炼技术，在保持高准确率的同时，相比传统自回归模型实现最高 6.4 倍的推理速度提升。模型支持自回归、扩散和自推测三种模式，8B 版本在准确率上超越 Qwen3 8B 1.2%，并已开源。

来源Hugging Face Blog

NVIDIA 近日发布了 Nemotron-Labs 扩散语言模型系列，旨在突破传统大型语言模型（LLM）逐 token 生成的性能瓶颈。传统自回归模型虽然稳定高效，但每个新 token 都需要完整的模型前向传播，导致显存带宽成为主要限制因素。对于延迟敏感型应用、小批量推理或希望充分利用现代 GPU 计算能力的开发者而言，逐 token 生成往往无法发挥硬件的全部潜力，因为 GPU 的大部分时间都花在内存操作上，而非实际计算。此外，自回归模型一旦生成某个 token 就无法修正，错误会逐级传播。

扩散语言模型（DLM）为解决这些问题提供了新思路：它能够并行生成多个 token，然后通过多次迭代逐步精炼。这种方法不仅能充分利用 GPU 的计算能力，显著提升运行时性能，还能对已生成的 token 进行修订，特别适合文本修改和中间填充任务。更重要的是，这种“生成-精炼”特性使得推理预算可控：通过减少精炼步数，可以降低模型的计算需求。

Nemotron-Labs Diffusion 的核心创新在于将自回归与扩散能力整合到同一模型中，支持三种推理模式：标准自回归模式保持与现有工作流完全兼容，开发者无需修改代码即可切换；扩散模式以 32 token 为一个块进行并行生成和迭代去噪，大幅提升吞吐量；自推测模式则先由扩散生成候选 token，再由自回归验证，兼具速度和可靠性。这种灵活的设计让开发者可以在部署时通过简单的配置选择模式，无需更改应用层代码。

性能方面，8B 模型在多项基准测试中平均准确率比 Qwen3 8B 高出 1.2%。在推理速度上，以 tokens per forward pass (TPF) 衡量，扩散模式达到自回归的 2.6 倍，线性自推测模式达到 6 倍，二次自推测模式达到 6.4 倍。这些提升在低批量甚至单查询场景下尤为显著。训练方面，模型基于 NVIDIA Nemotron 预训练数据集，使用 1.3 万亿 token 进行联合自回归与扩散目标预训练，随后在 45B token 的监督微调数据上进一步优化。该方法从预训练的自回归模型出发，通过改进注意力机制为块状结构，保留原有能力的同时添加并行解码能力。

Nemotron-Labs Diffusion 系列已在 HuggingFace 开源，包括 3B、8B 和 14B 文本模型及 8B 视觉语言模型（VLM），采用 NVIDIA Nemotron 开放模型许可证（商用友好）。推理支持即将集成至 SGLang 主分支，开发者可通过一行配置切换模式。例如，设置 ar_mode=true 运行纯自回归模式；设置 fast_diffuser 启动扩散模式；设置 linear_spec 启用自推测模式。在 B200 上，自推测模式可达约 865 tok/s，约为纯自回归的 4 倍。无论是构建延迟敏感型应用还是优化推理成本，Nemotron-Labs Diffusion 都提供了一种新的加速方案，无需改变现有应用。