AI News HubLIVE
站内改写

利用 Nemotron-Labs 扩散语言模型实现接近光速的文本生成

NVIDIA 发布 Nemotron-Labs 扩散语言模型系列,通过并行生成与迭代精炼技术,在保持高准确率的同时,相比传统自回归模型实现最高 6.4 倍的推理速度提升。模型支持自回归、扩散和自推测三种模式,8B 版本在准确率上超越 Qwen3 8B 1.2%,并已开源。

文章情报

工程师进阶

要点

  • Nemotron-Labs 扩散模型支持三种生成模式:自回归、扩散和自推测。
  • 8B 模型在扩散模式下速度提升 2.6 倍,自推测模式下最高提升 6.4 倍。
  • 模型基于预训练自回归模型改造,通过联合训练保留原有能力并添加扩散能力。
  • 已在 HuggingFace 开源,提供 3B、8B、14B 文本模型及 8B 视觉语言模型。

为什么重要

这条新闻值得关注,因为Nemotron-Labs 扩散模型支持三种生成模式:自回归、扩散和自推测。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

NVIDIA 近日发布了 Nemotron-Labs 扩散语言模型系列,旨在突破传统大型语言模型(LLM)逐 token 生成的性能瓶颈。传统自回归模型虽然稳定高效,但每个新 token 都需要完整的模型前向传播,导致显存带宽成为主要限制因素。对于延迟敏感型应用、小批量推理或希望充分利用现代 GPU 计算能力的开发者而言,逐 token 生成往往无法发挥硬件的全部潜力,因为 GPU 的大部分时间都花在内存操作上,而非实际计算。此外,自回归模型一旦生成某个 token 就无法修正,错误会逐级传播。

扩散语言模型(DLM)为解决这些问题提供了新思路:它能够并行生成多个 token,然后通过多次迭代逐步精炼。这种方法不仅能充分利用 GPU 的计算能力,显著提升运行时性能,还能对已生成的 token 进行修订,特别适合文本修改和中间填充任务。更重要的是,这种“生成-精炼”特性使得推理预算可控:通过减少精炼步数,可以降低模型的计算需求。

Nemotron-Labs Diffusion 的核心创新在于将自回归与扩散能力整合到同一模型中,支持三种推理模式:标准自回归模式保持与现有工作流完全兼容,开发者无需修改代码即可切换;扩散模式以 32 token 为一个块进行并行生成和迭代去噪,大幅提升吞吐量;自推测模式则先由扩散生成候选 token,再由自回归验证,兼具速度和可靠性。这种灵活的设计让开发者可以在部署时通过简单的配置选择模式,无需更改应用层代码。

性能方面,8B 模型在多项基准测试中平均准确率比 Qwen3 8B 高出 1.2%。在推理速度上,以 tokens per forward pass (TPF) 衡量,扩散模式达到自回归的 2.6 倍,线性自推测模式达到 6 倍,二次自推测模式达到 6.4 倍。这些提升在低批量甚至单查询场景下尤为显著。训练方面,模型基于 NVIDIA Nemotron 预训练数据集,使用 1.3 万亿 token 进行联合自回归与扩散目标预训练,随后在 45B token 的监督微调数据上进一步优化。该方法从预训练的自回归模型出发,通过改进注意力机制为块状结构,保留原有能力的同时添加并行解码能力。

Nemotron-Labs Diffusion 系列已在 HuggingFace 开源,包括 3B、8B 和 14B 文本模型及 8B 视觉语言模型(VLM),采用 NVIDIA Nemotron 开放模型许可证(商用友好)。推理支持即将集成至 SGLang 主分支,开发者可通过一行配置切换模式。例如,设置 ar_mode=true 运行纯自回归模式;设置 fast_diffuser 启动扩散模式;设置 linear_spec 启用自推测模式。在 B200 上,自推测模式可达约 865 tok/s,约为纯自回归的 4 倍。无论是构建延迟敏感型应用还是优化推理成本,Nemotron-Labs Diffusion 都提供了一种新的加速方案,无需改变现有应用。