2026-06-04 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA Nemotron 3 Ultra：专为长期代理工作流打造的5500亿参数开放模型

NVIDIA Nemotron 3 Ultra 是一款5500亿总参数（550亿活跃参数）的开放模型，专为长时间运行的代理驱动工作流设计，支持百万token上下文，并采用NVFP4优化，在代理任务上具有领先的准确性和成本效益。

NVIDIA于2026年6月4日发布了Nemotron 3 Ultra，这是一款拥有5500亿总参数（每个token仅激活550亿参数）的开放模型，现已在Ollama云端可用。该模型专为长时间运行的代理工作流而构建，旨在通过数百次工具调用提供快速且经济的性能。

模型亮点

Nemotron 3 Ultra针对代理编排、编码代理、深度研究和复杂企业工作流进行了调优，这些工作流通常跨数百个步骤运行。其100万token的上下文窗口允许用户将整个代码库、长时间的工具历史和研究轨迹保留在上下文中，无需担心丢失线索。

在推理效率方面，该模型采用了NVIDIA的4位浮点格式NVFP4进行优化，可以将模型装入更少的内存并实现更快的推理速度。5500亿总参数中仅550亿活跃，兼顾了前沿推理能力与高吞吐量。

快速入门

用户只需下载Ollama，即可使用所选工具运行Nemotron 3 Ultra。例如，使用Claude Code时运行：

ollama launch claude --model nemotron-3-ultra:cloud

使用Hermes Agent：

ollama launch hermes --model nemotron-3-ultra:cloud

使用OpenClaw：

ollama launch openclaw --model nemotron-3-ultra:cloud

一般聊天：

ollama run nemotron-3-ultra:cloud

更多集成请参见官方页面。

基准测试表现

Nemotron 3 Ultra在代理生产力、指令遵循和长上下文任务的准确性上均处于领先地位，同时提供领先的吞吐量。与其他领先的开放模型相比，成本节省高达30%。图表显示该模型位于准确性和吞吐量均最优的象限，并在成本效率前沿领跑。

参考资料

NVIDIA Nemotron 3 Ultra博客及Ollama模型页面提供更多详细信息。