AI News HubLIVE
站内改写2 分钟阅读

NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上可用

NVIDIA Nemotron 3 Ultra 是一款开放的大语言模型,采用混合 Transformer-Mamba MoE 架构,拥有5500亿总参数和550亿激活参数,专为自主代理中的前沿推理和协调而设计。现可通过 Amazon SageMaker JumpStart 一键部署,推理速度提升5倍,成本降低30%,支持百万级 token 上下文。

来源AWS Machine Learning Blog作者: Dan Ferguson

今天,我们激动地宣布 NVIDIA Nemotron 3 Ultra 在 Amazon SageMaker JumpStart 上实现首日可用。

通过这次发布,您可以利用一键部署体验来部署 Nemotron 3 Ultra 模型。Nemotron 3 Ultra 是一款开放的模型,专为长期运行的自主代理中的前沿推理和协调而构建,为代理工作负载提供5倍更快的推理速度和高达30%的成本降低。Nemotron 3 Ultra 针对 NVFP4 格式进行了优化,这使得模型部署更快且更具成本效益。

NVIDIA Nemotron 3 Ultra 概述

NVIDIA Nemotron 3 Ultra 是一款开放的大语言模型,拥有5500亿总参数和550亿激活参数。它基于混合 Transformer-Mamba 混合专家(MoE)架构设计,旨在以远低于同等质量密集模型的计算成本提供前沿智能。

规格参数:

  • 架构:混合 Transformer-Mamba MoE
  • 参数:550B 总 / 55B 激活
  • 上下文长度:最高1M tokens
  • 输入/输出:文本输入,文本输出
  • 精度:NVFP4
  • 推理速度:对于长期运行的代理工作流快5倍
  • 成本:对于复杂的代理任务最高降低30%

为什么代理型 AI 需要专用模型

代理不仅仅回答问题。它们进行规划、调用工具、将工作委派给子代理、检查结果并在数百轮中持续进行。每一步都会增加 token 和计算量,因此关键指标包括任务在有效准确率下的完成度、完成时间和每任务成本。

Nemotron 3 Ultra 直接解决了这一问题。其 MoE 架构每次前向传递仅激活550亿参数中的550亿,即使在百万 token 上下文长度下也能保持高吞吐量。这意味着代理可以维持跨越数百轮的规划、工具调用和自我纠错循环,同时帮助保持连贯性并管理成本。

企业用例

Nemotron 3 Ultra 在需要持续多步推理的工作负载中表现出色:

  • 代理协调器 – 协调多个子代理,管理长工具调用链的状态
  • 编码代理 – 生成、测试、调试和迭代大型代码仓库中的代码
  • 深度研究 – 综合多个来源的信息,在扩展上下文中保持连贯推理
  • 复杂企业工作流 – 使用决策分支和错误恢复自动化多步业务流程

通过 SageMaker JumpStart 入门

您可以通过 Amazon SageMaker JumpStart 一键部署 Nemotron 3 Ultra,无需管理基础设施或配置服务框架。

前提条件:

  • 一个 AWS 账户
  • 适当范围的 SageMaker JumpStart 权限
  • 足够的 GPU 实例服务配额(例如 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)

注意:部署此模型会创建 SageMaker 端点,运行时会产生费用。GPU 实例如 ml.p5en.48xlarge 每小时可能花费数美元。请参阅 Amazon SageMaker AI 定价了解详情。完成后请记得删除端点以避免持续费用。

使用 SageMaker Studio 部署:

  1. 打开 Amazon SageMaker Studio
  2. 在左侧导航窗格中选择 SageMaker JumpStart
  3. 搜索 Nemotron 3 Ultra
  4. 选择模型卡片
  5. 选择 Deploy
  6. 选择您的实例类型(支持的实例类型包括 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)
  7. 查看部署设置(默认设置对大多数用例足够)
  8. 选择 Deploy 创建端点
  9. 等待端点状态变为 InService 后再进行推理

使用 SageMaker Python SDK 部署:

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
    role=sagemaker.get_execution_role(),
)
predictor = model.deploy(accept_eula=True)

运行推理:

payload = {
    "messages": [{
        "role": "user",
        "content": "将这项任务分解为子任务,确定需要哪些工具,并按顺序运行它们。"
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

清理:完成后删除端点以避免费用:predictor.delete_endpoint()

总结

NVIDIA Nemotron 3 Ultra 将前沿推理能力带入 Amazon SageMaker JumpStart,为代理工作负载提供5倍更快的推理和高达30%的成本降低。其混合 Transformer-Mamba MoE 架构和百万 token 上下文窗口使其专为生产代理所需的持续多步推理而设计。

无论您是在构建代理协调器、编码代理、深度研究系统还是复杂的企业自动化,Nemotron 3 Ultra 现在即可从 SageMaker JumpStart 部署。

立即开始:在 Amazon SageMaker JumpStart 中搜索 Nemotron 3 Ultra。