AI News HubLIVE
站内改写2 分钟阅读

NVIDIA发布Nemotron-Labs-TwoTower:基于冻结自回归骨干网络的开放权重扩散语言模型

NVIDIA发布了Nemotron-Labs-TwoTower扩散语言模型,该模型采用双塔架构,在冻结的自回归骨干网络上添加训练过的去噪器,实现了2.42倍的生成吞吐量提升,同时保留了98.7%的基准质量。模型以开放权重形式发布,支持扩散、模拟自回归和自回归三种推理模式。

来源MarkTechPost作者: Asif Razzaq

NVIDIA正式发布了Nemotron-Labs-TwoTower,这是一种基于预训练自回归骨干网络的扩散语言模型。该模型以开放权重形式提供,采用NVIDIA Nemotron开放模型许可证。此次发布旨在解决文本生成中的吞吐量瓶颈问题。

传统的自回归(AR)模型逐token解码,这种串行过程限制了生成吞吐量。而离散扩散语言模型则采用不同路径:它们并行生成token并迭代优化。然而,大多数扩散语言模型使用单一网络同时处理两项任务:在每个步骤中表示干净token并去噪被污染的token。TwoTower将这两项任务分离到两个独立模块中,分别称为“上下文塔”和“去噪塔”。

TwoTower基于Nemotron-3-Nano-30B-A3B骨干网络构建,该骨干网络是开放权重的混合架构,融合了Mamba-2、自注意力和混合专家(MoE)层。每个塔包含52层:23个Mamba-2层、6个自注意力层和23个MoE层。发布的检查点包含两个塔,总计约600亿参数,每个塔每token有效参数约30亿。MoE使用128个可路由专家,其中6个激活,外加2个共享专家。

两个塔初始化为同一骨干检查点的副本,但仅去噪塔进行训练,AR上下文塔保持冻结。去噪器的训练数据量约为2.1万亿token,仅是骨干网络预训练数据(25万亿token)的一小部分。

在推理过程中,AR上下文塔对提示和已提交token进行因果处理,生成逐层的KV缓存和最终的Mamba-2状态,保留了骨干网络的自回归能力。扩散去噪塔则对噪声块进行迭代优化:在块内使用双向注意力,同时对过去的干净块保持因果性。两个塔逐层连接,去噪塔的每一层都交叉关注上下文塔的对应层,这种逐层对齐的交叉注意力提供了对骨干网络表示的多尺度访问。此外,Mamba-2层从上下文塔的Mamba状态初始化其初始状态,扩散时间步通过adaLN-single时间调节调制每一层,该模块仅增加约150万参数。

生成过程按块进行:每个块初始化为S个[MASK]token,去噪器经过T步迭代后提交该块,然后上下文塔处理已提交的token以更新其缓存。这解释了为什么多次去噪步骤仍能快于逐token解码:自回归解码每步只提交一个token,而TwoTower在早期迭代中每步提交多个token。

在2×H100 GPU上的BF16评估显示,默认操作点(置信度解掩码,阈值γ=0.8,块大小S=16)下,TwoTower在MMLU、ARC-Challenge、WinoGrande等任务上性能接近AR基线,聚合质量保留98.7%,生成吞吐量提升2.42倍。通用知识任务与基线差距在1个百分点以内,代码和数学任务下降稍多,常识和多语言任务则略有恢复或提升。降低γ可提交更多token以提升吞吐量,但会带来质量损失。

该检查点支持三种推理模式:完整双塔扩散(需2块GPU,每块约59GB BF16内存)、模拟自回归和纯自回归(后者可在单块80GB GPU上运行)。最直接的应用场景是加速批量生成,例如合成文本生成任务中,可以以少量质量下降换取大幅吞吐量提升。用户还可调节置信度阈值来权衡质量与速度。此外,由于上下文塔保留了LM head,可用于推测解码、验证或自回归评分,团队可从同一检查点运行多种模式。

TwoTower的主要优势包括:开放权重,可用于商业用途;在默认操作点下以2.42倍吞吐量保留98.7%质量;单个检查点支持多种解码模式;去噪器训练成本较低。其局限包括:完整双塔推理需要2块GPU;代码和数学任务性能下降较多;固定模型权重内存占用较高;发布版本为基础模型,未经过指令微调或对齐。