2026-06-05 05:42 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA AI发布Nemotron 3 Ultra：一个开放的550B混合专家混合Mamba-Transformer用于长时间运行的智能体

NVIDIA发布了Nemotron 3 Ultra，这是一个550B总参数（55B活跃）的开放混合专家（MoE）模型，采用混合Mamba-Attention架构，专为长时间运行的智能体设计。它支持100万token的上下文，推理吞吐量比同类开放LLM高出约6倍，同时保持相同精度，并附带开放权重、训练数据和配方，采用OpenMDW-1.1许可。

来源MarkTechPost作者: Asif Razzaq

NVIDIA发布了Nemotron 3 Ultra，这是其Nemotron 3系列中最大的模型，专门针对长时间运行的智能体问题设计。这些智能体需要规划、调用工具并在多个回合中进行推理。随着智能体运行时间增长，令牌数量增加，推理成本也随之上升。Nemotron 3 Ultra旨在保持高精度的同时，使推理更快、更便宜。

Nemotron 3 Ultra是一个5500亿总参数的混合专家（MoE）模型，每令牌仅激活550亿参数。MoE设计提高了每活跃参数的精度。它采用混合Mamba-Attention架构，而非纯Transformer。Mamba层以亚二次方规模处理长序列，而少量注意力层则保留以在大上下文中进行精确召回。

该模型在20万亿文本令牌上进行预训练，然后将上下文扩展到100万令牌。后训练采用监督微调（SFT）、强化学习（RL）和多教师在线策略蒸馏（MOPD）。NVIDIA团队报告，与同类开放LLM相比，推理吞吐量提高了约6倍，同时保持相同精度。

架构细节包括108层、模型维度8192、64个查询头和仅2个键值头，从而保持KV缓存较小。每个MoE层有512个专家，每令牌激活前22个。三个关键设计选择突出：LatentMoE通过牺牲隐藏维度宽度，以固定推理成本获得更多路由专家；多令牌预测（MTP）在一次前向传播中预测多个未来令牌，实现原生推测解码；NVFP4预训练使用E2M1 4位数据类型和二维块量化权重，这是迄今为止最大规模的稳定、精确NVFP4训练演示。

预训练采用Warmup-Stable-Decay学习率调度，分为两个阶段：前15万亿令牌偏向多样性，最后5万亿令牌偏向高质量数据。NVIDIA还发布了新的领域特定预训练数据集，包括1730亿刷新GitHub代码令牌。在Nemotron 3 Nano消融实验中，一个合成法律集将代理LegalBench平均分从64.6提升至74.7，一个基于维基的事实寻求集将代理SimpleQA从40.2提升至50.2。

后训练发布规模也很大：NVIDIA新增1000万SFT样本和100万RL任务，以及15个新RL环境。累计Nemotron开放总数达到5000万SFT样本、200万RL任务和55个RL环境。

训练过程中并非一帆风顺：NVIDIA记录了两个损失发散事件。第一个接近8万亿令牌，根源在于将输出层梯度减少从FP32改为BF16，导致MTP梯度在BF16的7位尾数中有效丢失。恢复为FP32梯度减少后训练重新稳定。第二个发散接近16万亿令牌，未确认根本原因，NVIDIA通过提前退火学习率并削减总令牌数至20万亿来缓解。

后训练流程包括SFT、统一RLVR、MOPD预热、MOPD和MTP提升，整个循环可重复多个周期。RLVR代表带可验证奖励的强化学习，同时在多个环境中训练：终端使用、软件工程、搜索、数学、代码、安全等。MOPD是主要的后训练新方法：混合环境RLVR会随着环境数量增加而稀释学习信号，因此NVIDIA训练了10多个领域专业教师模型。在MOPD期间，学生模型在各领域生成自己的轨迹，每个轨迹由匹配的教师用密集的令牌级指导评分。

Nemotron 3 Ultra支持三种推理模式：推理关闭、常规和中等努力。中等努力模式使用约2.5倍更少的令牌，精度下降约7%。在基准测试中，Nemotron 3 Ultra在智能体任务上得分：PinchBench 90.0，ProfBench（搜索）56.0，SWE-Bench Verified 71.9，Terminal Bench 2.1得56.4（Kimi-K2.6领先67.2）。在推理上，IOI 2025得570.0，AA-Omniscience得78.7（最高非幻觉分数）。长上下文在100万令牌下RULER得分94.7。

在8K输入/64K输出设置下，NVFP4在GB200上，Nemotron 3 Ultra的吞吐量是GLM-5.1的5.9倍，是Kimi-K2.6的4.8倍，是Qwen-3.5的1.6倍。NVIDIA还报告任务完成成本降低高达30%，来自SWE-Bench和Terminal Bench上每回合更少的令牌。

量化方面，NVIDIA发布了单个NVFP4检查点。在Blackwell上以原生FP4数学运行，在Hopper上以W4A16运行。最终方案每元素5.03位，混合NVFP4路由专家与FP8共享专家和Mamba线性层，注意力层保持BF16。

关键要点：Nemotron 3 Ultra是一个550B开放MoE（55B活跃），采用混合Mamba-Attention设计用于长时间运行的智能体；NVIDIA报告推理吞吐量高达同类开放LLM的约6倍；100万令牌上下文结合最高非幻觉分数；后训练以MOPD为中心；权重、训练数据和配方以OpenMDW-1.1开放。