Nemotron 3 Ultra:开放、高效的混合专家模型,结合Mamba与Transformer用于智能体推理
Nemotron 3 Ultra是NVIDIA发布的一款550亿总参数、55亿活跃参数的混合专家语言模型,融合了Mamba和Transformer架构。在20万亿token上预训练,支持100万token上下文,推理吞吐量比现有开源LLM高6倍,精度相当。模型开源,适用于长时自主智能体任务。
NVIDIA近日发布了Nemotron 3 Ultra,这是一款具有里程碑意义的语言模型。该模型采用混合专家(MoE)架构,总参数量高达5500亿,但每次推理仅激活55亿参数,从而在保持强大能力的同时实现了极高的效率。Nemotron 3 Ultra创新性地融合了Mamba和Transformer两种架构,旨在为自主智能体任务提供高效且强大的推理能力。
该模型在20万亿个文本token上进行了预训练,随后通过上下文扩展技术将支持长度提升至100万token,使其能够一次性处理超长序列。后训练阶段采用了监督微调(SFT)、强化学习(RL)和多教师在线策略蒸馏(MOPD)等多种先进技术。此外,模型还集成了LatentMoE、多token预测(MTP)、NVFP4预训练、多环境RLVR以及推理预算控制等关键技术,共同提升了模型的性能和效率。
在性能方面,Nemotron 3 Ultra的推理吞吐量比当前最先进的开源大语言模型高出约6倍,同时保持了同等的准确性。这种效率与精度的结合,加上超长的上下文支持,使其特别适合需要长时间运行的自主智能体任务,例如复杂推理和持续对话。NVIDIA秉承开放精神,已在HuggingFace上开源了Nemotron 3 Ultra的基础版、后训练版和量化版检查点,并提供了训练数据和详细配方。这一举措将有力推动AI社区在高效模型和智能体系统方面的进一步研究与应用,有望成为开源大语言模型的新标杆。