NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上可用
NVIDIA Nemotron 3 Ultra 是一款开放的大语言模型,采用混合 Transformer-Mamba MoE 架构,拥有5500亿总参数和550亿激活参数,专为自主代理中的前沿推理和协调而设计。现可通过 Amazon SageMaker JumpStart 一键部署,推理速度提升5倍,成本降低30%,支持百万级 token 上下文。
今天,我们激动地宣布 NVIDIA Nemotron 3 Ultra 在 Amazon SageMaker JumpStart 上实现首日可用。
通过这次发布,您可以利用一键部署体验来部署 Nemotron 3 Ultra 模型。Nemotron 3 Ultra 是一款开放的模型,专为长期运行的自主代理中的前沿推理和协调而构建,为代理工作负载提供5倍更快的推理速度和高达30%的成本降低。Nemotron 3 Ultra 针对 NVFP4 格式进行了优化,这使得模型部署更快且更具成本效益。
NVIDIA Nemotron 3 Ultra 概述
NVIDIA Nemotron 3 Ultra 是一款开放的大语言模型,拥有5500亿总参数和550亿激活参数。它基于混合 Transformer-Mamba 混合专家(MoE)架构设计,旨在以远低于同等质量密集模型的计算成本提供前沿智能。
规格参数:
- 架构:混合 Transformer-Mamba MoE
- 参数:550B 总 / 55B 激活
- 上下文长度:最高1M tokens
- 输入/输出:文本输入,文本输出
- 精度:NVFP4
- 推理速度:对于长期运行的代理工作流快5倍
- 成本:对于复杂的代理任务最高降低30%
为什么代理型 AI 需要专用模型
代理不仅仅回答问题。它们进行规划、调用工具、将工作委派给子代理、检查结果并在数百轮中持续进行。每一步都会增加 token 和计算量,因此关键指标包括任务在有效准确率下的完成度、完成时间和每任务成本。
Nemotron 3 Ultra 直接解决了这一问题。其 MoE 架构每次前向传递仅激活550亿参数中的550亿,即使在百万 token 上下文长度下也能保持高吞吐量。这意味着代理可以维持跨越数百轮的规划、工具调用和自我纠错循环,同时帮助保持连贯性并管理成本。
企业用例
Nemotron 3 Ultra 在需要持续多步推理的工作负载中表现出色:
- 代理协调器 – 协调多个子代理,管理长工具调用链的状态
- 编码代理 – 生成、测试、调试和迭代大型代码仓库中的代码
- 深度研究 – 综合多个来源的信息,在扩展上下文中保持连贯推理
- 复杂企业工作流 – 使用决策分支和错误恢复自动化多步业务流程
通过 SageMaker JumpStart 入门
您可以通过 Amazon SageMaker JumpStart 一键部署 Nemotron 3 Ultra,无需管理基础设施或配置服务框架。
前提条件:
- 一个 AWS 账户
- 适当范围的 SageMaker JumpStart 权限
- 足够的 GPU 实例服务配额(例如 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)
注意:部署此模型会创建 SageMaker 端点,运行时会产生费用。GPU 实例如 ml.p5en.48xlarge 每小时可能花费数美元。请参阅 Amazon SageMaker AI 定价了解详情。完成后请记得删除端点以避免持续费用。
使用 SageMaker Studio 部署:
- 打开 Amazon SageMaker Studio
- 在左侧导航窗格中选择 SageMaker JumpStart
- 搜索 Nemotron 3 Ultra
- 选择模型卡片
- 选择 Deploy
- 选择您的实例类型(支持的实例类型包括 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)
- 查看部署设置(默认设置对大多数用例足够)
- 选择 Deploy 创建端点
- 等待端点状态变为 InService 后再进行推理
使用 SageMaker Python SDK 部署:
import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
role=sagemaker.get_execution_role(),
)
predictor = model.deploy(accept_eula=True)运行推理:
payload = {
"messages": [{
"role": "user",
"content": "将这项任务分解为子任务,确定需要哪些工具,并按顺序运行它们。"
}],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])清理:完成后删除端点以避免费用:predictor.delete_endpoint()
总结
NVIDIA Nemotron 3 Ultra 将前沿推理能力带入 Amazon SageMaker JumpStart,为代理工作负载提供5倍更快的推理和高达30%的成本降低。其混合 Transformer-Mamba MoE 架构和百万 token 上下文窗口使其专为生产代理所需的持续多步推理而设计。
无论您是在构建代理协调器、编码代理、深度研究系统还是复杂的企业自动化,Nemotron 3 Ultra 现在即可从 SageMaker JumpStart 部署。
立即开始:在 Amazon SageMaker JumpStart 中搜索 Nemotron 3 Ultra。