NVIDIA AI发布Nemotron 3 Ultra:一个开放的550B混合专家混合Mamba-Transformer用于长时间运行的智能体
NVIDIA发布了Nemotron 3 Ultra,这是一个550B总参数(55B活跃)的开放混合专家(MoE)模型,采用混合Mamba-Attention架构,专为长时间运行的智能体设计。它支持100万token的上下文,推理吞吐量比同类开放LLM高出约6倍,同时保持相同精度,并附带开放权重、训练数据和配方,采用OpenMDW-1.1许可。
NVIDIA发布了Nemotron 3 Ultra,这是其Nemotron 3系列中最大的模型,专门针对长时间运行的智能体问题设计。这些智能体需要规划、调用工具并在多个回合中进行推理。随着智能体运行时间增长,令牌数量增加,推理成本也随之上升。Nemotron 3 Ultra旨在保持高精度的同时,使推理更快、更便宜。
Nemotron 3 Ultra是一个5500亿总参数的混合专家(MoE)模型,每令牌仅激活550亿参数。MoE设计提高了每活跃参数的精度。它采用混合Mamba-Attention架构,而非纯Transformer。Mamba层以亚二次方规模处理长序列,而少量注意力层则保留以在大上下文中进行精确召回。
该模型在20万亿文本令牌上进行预训练,然后将上下文扩展到100万令牌。后训练采用监督微调(SFT)、强化学习(RL)和多教师在线策略蒸馏(MOPD)。NVIDIA团队报告,与同类开放LLM相比,推理吞吐量提高了约6倍,同时保持相同精度。
架构细节包括108层、模型维度8192、64个查询头和仅2个键值头,从而保持KV缓存较小。每个MoE层有512个专家,每令牌激活前22个。三个关键设计选择突出:LatentMoE通过牺牲隐藏维度宽度,以固定推理成本获得更多路由专家;多令牌预测(MTP)在一次前向传播中预测多个未来令牌,实现原生推测解码;NVFP4预训练使用E2M1 4位数据类型和二维块量化权重,这是迄今为止最大规模的稳定、精确NVFP4训练演示。
预训练采用Warmup-Stable-Decay学习率调度,分为两个阶段:前15万亿令牌偏向多样性,最后5万亿令牌偏向高质量数据。NVIDIA还发布了新的领域特定预训练数据集,包括1730亿刷新GitHub代码令牌。在Nemotron 3 Nano消融实验中,一个合成法律集将代理LegalBench平均分从64.6提升至74.7,一个基于维基的事实寻求集将代理SimpleQA从40.2提升至50.2。
后训练发布规模也很大:NVIDIA新增1000万SFT样本和100万RL任务,以及15个新RL环境。累计Nemotron开放总数达到5000万SFT样本、200万RL任务和55个RL环境。
训练过程中并非一帆风顺:NVIDIA记录了两个损失发散事件。第一个接近8万亿令牌,根源在于将输出层梯度减少从FP32改为BF16,导致MTP梯度在BF16的7位尾数中有效丢失。恢复为FP32梯度减少后训练重新稳定。第二个发散接近16万亿令牌,未确认根本原因,NVIDIA通过提前退火学习率并削减总令牌数至20万亿来缓解。
后训练流程包括SFT、统一RLVR、MOPD预热、MOPD和MTP提升,整个循环可重复多个周期。RLVR代表带可验证奖励的强化学习,同时在多个环境中训练:终端使用、软件工程、搜索、数学、代码、安全等。MOPD是主要的后训练新方法:混合环境RLVR会随着环境数量增加而稀释学习信号,因此NVIDIA训练了10多个领域专业教师模型。在MOPD期间,学生模型在各领域生成自己的轨迹,每个轨迹由匹配的教师用密集的令牌级指导评分。
Nemotron 3 Ultra支持三种推理模式:推理关闭、常规和中等努力。中等努力模式使用约2.5倍更少的令牌,精度下降约7%。在基准测试中,Nemotron 3 Ultra在智能体任务上得分:PinchBench 90.0,ProfBench(搜索)56.0,SWE-Bench Verified 71.9,Terminal Bench 2.1得56.4(Kimi-K2.6领先67.2)。在推理上,IOI 2025得570.0,AA-Omniscience得78.7(最高非幻觉分数)。长上下文在100万令牌下RULER得分94.7。
在8K输入/64K输出设置下,NVFP4在GB200上,Nemotron 3 Ultra的吞吐量是GLM-5.1的5.9倍,是Kimi-K2.6的4.8倍,是Qwen-3.5的1.6倍。NVIDIA还报告任务完成成本降低高达30%,来自SWE-Bench和Terminal Bench上每回合更少的令牌。
量化方面,NVIDIA发布了单个NVFP4检查点。在Blackwell上以原生FP4数学运行,在Hopper上以W4A16运行。最终方案每元素5.03位,混合NVFP4路由专家与FP8共享专家和Mamba线性层,注意力层保持BF16。
关键要点:Nemotron 3 Ultra是一个550B开放MoE(55B活跃),采用混合Mamba-Attention设计用于长时间运行的智能体;NVIDIA报告推理吞吐量高达同类开放LLM的约6倍;100万令牌上下文结合最高非幻觉分数;后训练以MOPD为中心;权重、训练数据和配方以OpenMDW-1.1开放。