2026-06-05 00:59 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA Nemotron 3 Ultra 現已在 Amazon SageMaker JumpStart 上可用

NVIDIA Nemotron 3 Ultra 是一款開放的大語言模型，採用混合 Transformer-Mamba MoE 架構，擁有5500億總引數和550億啟用引數，專為自主代理中的前沿推理和協調而設計。現可透過 Amazon SageMaker JumpStart 一鍵部署，推理速度提升5倍，成本降低30%，支援百萬級 token 上下文。

來源AWS Machine Learning Blog作者: Dan Ferguson

今天，我們激動地宣佈 NVIDIA Nemotron 3 Ultra 在 Amazon SageMaker JumpStart 上實現首日可用。

透過這次釋出，您可以利用一鍵部署體驗來部署 Nemotron 3 Ultra 模型。Nemotron 3 Ultra 是一款開放的模型，專為長期執行的自主代理中的前沿推理和協調而構建，為代理工作負載提供5倍更快的推理速度和高達30%的成本降低。Nemotron 3 Ultra 針對 NVFP4 格式進行了最佳化，這使得模型部署更快且更具成本效益。

NVIDIA Nemotron 3 Ultra 概述

NVIDIA Nemotron 3 Ultra 是一款開放的大語言模型，擁有5500億總引數和550億啟用引數。它基於混合 Transformer-Mamba 混合專家（MoE）架構設計，旨在以遠低於同等質量密集模型的計算成本提供前沿智慧。

規格引數：

架構：混合 Transformer-Mamba MoE
引數：550B 總 / 55B 啟用
上下文長度：最高1M tokens
輸入/輸出：文本輸入，文本輸出
精度：NVFP4
推理速度：對於長期執行的代理工作流快5倍
成本：對於複雜的代理任務最高降低30%

為什麼代理型 AI 需要專用模型

代理不僅僅回答問題。它們進行規劃、呼叫工具、將工作委派給子代理、檢查結果並在數百輪中持續進行。每一步都會增加 token 和計算量，因此關鍵指標包括任務在有效準確率下的完成度、完成時間和每任務成本。

Nemotron 3 Ultra 直接解決了這一問題。其 MoE 架構每次前向傳遞僅啟用550億引數中的550億，即使在百萬 token 上下文長度下也能保持高吞吐量。這意味著代理可以維持跨越數百輪的規劃、工具呼叫和自我糾錯迴圈，同時幫助保持連貫性並管理成本。

企業用例

Nemotron 3 Ultra 在需要持續多步推理的工作負載中表現出色：

代理協調器 – 協調多個子代理，管理長工具呼叫鏈的狀態
編碼代理 – 生成、測試、除錯和迭代大型程式碼倉庫中的程式碼
深度研究 – 綜合多個來源的資訊，在擴充套件上下文中保持連貫推理
複雜企業工作流 – 使用決策分支和錯誤恢復自動化多步業務流程

透過 SageMaker JumpStart 入門

您可以透過 Amazon SageMaker JumpStart 一鍵部署 Nemotron 3 Ultra，無需管理基礎設施或配置服務框架。

前提條件：

一個 AWS 賬戶
適當範圍的 SageMaker JumpStart 許可權
足夠的 GPU 例項服務配額（例如 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge）

注意：部署此模型會建立 SageMaker 端點，執行時會產生費用。GPU 例項如 ml.p5en.48xlarge 每小時可能花費數美元。請參閱 Amazon SageMaker AI 定價瞭解詳情。完成後請記得刪除端點以避免持續費用。

使用 SageMaker Studio 部署：

開啟 Amazon SageMaker Studio
在左側導航窗格中選擇 SageMaker JumpStart
搜尋 Nemotron 3 Ultra
選擇模型卡片
選擇 Deploy
選擇您的例項型別（支援的例項型別包括 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge）
檢視部署設定（預設設定對大多數用例足夠）
選擇 Deploy 建立端點
等待端點狀態變為 InService 後再進行推理

使用 SageMaker Python SDK 部署：

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
    role=sagemaker.get_execution_role(),
)
predictor = model.deploy(accept_eula=True)

執行推理：

payload = {
    "messages": [{
        "role": "user",
        "content": "將這項任務分解為子任務，確定需要哪些工具，並按順序執行它們。"
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

清理：完成後刪除端點以避免費用：predictor.delete_endpoint()

總結

NVIDIA Nemotron 3 Ultra 將前沿推理能力帶入 Amazon SageMaker JumpStart，為代理工作負載提供5倍更快的推理和高達30%的成本降低。其混合 Transformer-Mamba MoE 架構和百萬 token 上下文視窗使其專為生產代理所需的持續多步推理而設計。

無論您是在構建代理協調器、編碼代理、深度研究系統還是複雜的企業自動化，Nemotron 3 Ultra 現在即可從 SageMaker JumpStart 部署。

立即開始：在 Amazon SageMaker JumpStart 中搜尋 Nemotron 3 Ultra。