2026-06-05 00:59 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上可用

NVIDIA Nemotron 3 Ultra 是一款开放的大语言模型，采用混合 Transformer-Mamba MoE 架构，拥有5500亿总参数和550亿激活参数，专为自主代理中的前沿推理和协调而设计。现可通过 Amazon SageMaker JumpStart 一键部署，推理速度提升5倍，成本降低30%，支持百万级 token 上下文。

来源AWS Machine Learning Blog作者: Dan Ferguson

今天，我们激动地宣布 NVIDIA Nemotron 3 Ultra 在 Amazon SageMaker JumpStart 上实现首日可用。

通过这次发布，您可以利用一键部署体验来部署 Nemotron 3 Ultra 模型。Nemotron 3 Ultra 是一款开放的模型，专为长期运行的自主代理中的前沿推理和协调而构建，为代理工作负载提供5倍更快的推理速度和高达30%的成本降低。Nemotron 3 Ultra 针对 NVFP4 格式进行了优化，这使得模型部署更快且更具成本效益。

NVIDIA Nemotron 3 Ultra 概述

NVIDIA Nemotron 3 Ultra 是一款开放的大语言模型，拥有5500亿总参数和550亿激活参数。它基于混合 Transformer-Mamba 混合专家（MoE）架构设计，旨在以远低于同等质量密集模型的计算成本提供前沿智能。

规格参数：

架构：混合 Transformer-Mamba MoE
参数：550B 总 / 55B 激活
上下文长度：最高1M tokens
输入/输出：文本输入，文本输出
精度：NVFP4
推理速度：对于长期运行的代理工作流快5倍
成本：对于复杂的代理任务最高降低30%

为什么代理型 AI 需要专用模型

代理不仅仅回答问题。它们进行规划、调用工具、将工作委派给子代理、检查结果并在数百轮中持续进行。每一步都会增加 token 和计算量，因此关键指标包括任务在有效准确率下的完成度、完成时间和每任务成本。

Nemotron 3 Ultra 直接解决了这一问题。其 MoE 架构每次前向传递仅激活550亿参数中的550亿，即使在百万 token 上下文长度下也能保持高吞吐量。这意味着代理可以维持跨越数百轮的规划、工具调用和自我纠错循环，同时帮助保持连贯性并管理成本。

企业用例

Nemotron 3 Ultra 在需要持续多步推理的工作负载中表现出色：

代理协调器 – 协调多个子代理，管理长工具调用链的状态
编码代理 – 生成、测试、调试和迭代大型代码仓库中的代码
深度研究 – 综合多个来源的信息，在扩展上下文中保持连贯推理
复杂企业工作流 – 使用决策分支和错误恢复自动化多步业务流程

通过 SageMaker JumpStart 入门

您可以通过 Amazon SageMaker JumpStart 一键部署 Nemotron 3 Ultra，无需管理基础设施或配置服务框架。

前提条件：

一个 AWS 账户
适当范围的 SageMaker JumpStart 权限
足够的 GPU 实例服务配额（例如 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge）

注意：部署此模型会创建 SageMaker 端点，运行时会产生费用。GPU 实例如 ml.p5en.48xlarge 每小时可能花费数美元。请参阅 Amazon SageMaker AI 定价了解详情。完成后请记得删除端点以避免持续费用。

使用 SageMaker Studio 部署：

打开 Amazon SageMaker Studio
在左侧导航窗格中选择 SageMaker JumpStart
搜索 Nemotron 3 Ultra
选择模型卡片
选择 Deploy
选择您的实例类型（支持的实例类型包括 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge）
查看部署设置（默认设置对大多数用例足够）
选择 Deploy 创建端点
等待端点状态变为 InService 后再进行推理

使用 SageMaker Python SDK 部署：

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
    role=sagemaker.get_execution_role(),
)
predictor = model.deploy(accept_eula=True)

运行推理：

payload = {
    "messages": [{
        "role": "user",
        "content": "将这项任务分解为子任务，确定需要哪些工具，并按顺序运行它们。"
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

清理：完成后删除端点以避免费用：predictor.delete_endpoint()

总结

NVIDIA Nemotron 3 Ultra 将前沿推理能力带入 Amazon SageMaker JumpStart，为代理工作负载提供5倍更快的推理和高达30%的成本降低。其混合 Transformer-Mamba MoE 架构和百万 token 上下文窗口使其专为生产代理所需的持续多步推理而设计。

无论您是在构建代理协调器、编码代理、深度研究系统还是复杂的企业自动化，Nemotron 3 Ultra 现在即可从 SageMaker JumpStart 部署。

立即开始：在 Amazon SageMaker JumpStart 中搜索 Nemotron 3 Ultra。