AI News HubLIVE
站内改写1 分钟阅读

NVIDIA Nemotron 3 Ultra:专为长期代理工作流打造的5500亿参数开放模型

NVIDIA Nemotron 3 Ultra 是一款5500亿总参数(550亿活跃参数)的开放模型,专为长时间运行的代理驱动工作流设计,支持百万token上下文,并采用NVFP4优化,在代理任务上具有领先的准确性和成本效益。

NVIDIA于2026年6月4日发布了Nemotron 3 Ultra,这是一款拥有5500亿总参数(每个token仅激活550亿参数)的开放模型,现已在Ollama云端可用。该模型专为长时间运行的代理工作流而构建,旨在通过数百次工具调用提供快速且经济的性能。

模型亮点

Nemotron 3 Ultra针对代理编排、编码代理、深度研究和复杂企业工作流进行了调优,这些工作流通常跨数百个步骤运行。其100万token的上下文窗口允许用户将整个代码库、长时间的工具历史和研究轨迹保留在上下文中,无需担心丢失线索。

在推理效率方面,该模型采用了NVIDIA的4位浮点格式NVFP4进行优化,可以将模型装入更少的内存并实现更快的推理速度。5500亿总参数中仅550亿活跃,兼顾了前沿推理能力与高吞吐量。

快速入门

用户只需下载Ollama,即可使用所选工具运行Nemotron 3 Ultra。例如,使用Claude Code时运行:

ollama launch claude --model nemotron-3-ultra:cloud

使用Hermes Agent:

ollama launch hermes --model nemotron-3-ultra:cloud

使用OpenClaw:

ollama launch openclaw --model nemotron-3-ultra:cloud

一般聊天:

ollama run nemotron-3-ultra:cloud

更多集成请参见官方页面。

基准测试表现

Nemotron 3 Ultra在代理生产力、指令遵循和长上下文任务的准确性上均处于领先地位,同时提供领先的吞吐量。与其他领先的开放模型相比,成本节省高达30%。图表显示该模型位于准确性和吞吐量均最优的象限,并在成本效率前沿领跑。

参考资料

NVIDIA Nemotron 3 Ultra博客及Ollama模型页面提供更多详细信息。