AI News HubLIVE
站内改写2 分鐘閱讀

NVIDIA Nemotron 3 Ultra 現已在 Amazon SageMaker JumpStart 上可用

NVIDIA Nemotron 3 Ultra 是一款開放的大語言模型,採用混合 Transformer-Mamba MoE 架構,擁有5500億總引數和550億啟用引數,專為自主代理中的前沿推理和協調而設計。現可透過 Amazon SageMaker JumpStart 一鍵部署,推理速度提升5倍,成本降低30%,支援百萬級 token 上下文。

來源AWS Machine Learning Blog作者: Dan Ferguson

今天,我們激動地宣佈 NVIDIA Nemotron 3 Ultra 在 Amazon SageMaker JumpStart 上實現首日可用。

透過這次釋出,您可以利用一鍵部署體驗來部署 Nemotron 3 Ultra 模型。Nemotron 3 Ultra 是一款開放的模型,專為長期執行的自主代理中的前沿推理和協調而構建,為代理工作負載提供5倍更快的推理速度和高達30%的成本降低。Nemotron 3 Ultra 針對 NVFP4 格式進行了最佳化,這使得模型部署更快且更具成本效益。

NVIDIA Nemotron 3 Ultra 概述

NVIDIA Nemotron 3 Ultra 是一款開放的大語言模型,擁有5500億總引數和550億啟用引數。它基於混合 Transformer-Mamba 混合專家(MoE)架構設計,旨在以遠低於同等質量密集模型的計算成本提供前沿智慧。

規格引數:

  • 架構:混合 Transformer-Mamba MoE
  • 引數:550B 總 / 55B 啟用
  • 上下文長度:最高1M tokens
  • 輸入/輸出:文本輸入,文本輸出
  • 精度:NVFP4
  • 推理速度:對於長期執行的代理工作流快5倍
  • 成本:對於複雜的代理任務最高降低30%

為什麼代理型 AI 需要專用模型

代理不僅僅回答問題。它們進行規劃、呼叫工具、將工作委派給子代理、檢查結果並在數百輪中持續進行。每一步都會增加 token 和計算量,因此關鍵指標包括任務在有效準確率下的完成度、完成時間和每任務成本。

Nemotron 3 Ultra 直接解決了這一問題。其 MoE 架構每次前向傳遞僅啟用550億引數中的550億,即使在百萬 token 上下文長度下也能保持高吞吐量。這意味著代理可以維持跨越數百輪的規劃、工具呼叫和自我糾錯迴圈,同時幫助保持連貫性並管理成本。

企業用例

Nemotron 3 Ultra 在需要持續多步推理的工作負載中表現出色:

  • 代理協調器 – 協調多個子代理,管理長工具呼叫鏈的狀態
  • 編碼代理 – 生成、測試、除錯和迭代大型程式碼倉庫中的程式碼
  • 深度研究 – 綜合多個來源的資訊,在擴充套件上下文中保持連貫推理
  • 複雜企業工作流 – 使用決策分支和錯誤恢復自動化多步業務流程

透過 SageMaker JumpStart 入門

您可以透過 Amazon SageMaker JumpStart 一鍵部署 Nemotron 3 Ultra,無需管理基礎設施或配置服務框架。

前提條件:

  • 一個 AWS 賬戶
  • 適當範圍的 SageMaker JumpStart 許可權
  • 足夠的 GPU 例項服務配額(例如 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)

注意:部署此模型會建立 SageMaker 端點,執行時會產生費用。GPU 例項如 ml.p5en.48xlarge 每小時可能花費數美元。請參閱 Amazon SageMaker AI 定價瞭解詳情。完成後請記得刪除端點以避免持續費用。

使用 SageMaker Studio 部署:

  1. 開啟 Amazon SageMaker Studio
  2. 在左側導航窗格中選擇 SageMaker JumpStart
  3. 搜尋 Nemotron 3 Ultra
  4. 選擇模型卡片
  5. 選擇 Deploy
  6. 選擇您的例項型別(支援的例項型別包括 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)
  7. 檢視部署設定(預設設定對大多數用例足夠)
  8. 選擇 Deploy 建立端點
  9. 等待端點狀態變為 InService 後再進行推理

使用 SageMaker Python SDK 部署:

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
    role=sagemaker.get_execution_role(),
)
predictor = model.deploy(accept_eula=True)

執行推理:

payload = {
    "messages": [{
        "role": "user",
        "content": "將這項任務分解為子任務,確定需要哪些工具,並按順序執行它們。"
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

清理:完成後刪除端點以避免費用:predictor.delete_endpoint()

總結

NVIDIA Nemotron 3 Ultra 將前沿推理能力帶入 Amazon SageMaker JumpStart,為代理工作負載提供5倍更快的推理和高達30%的成本降低。其混合 Transformer-Mamba MoE 架構和百萬 token 上下文視窗使其專為生產代理所需的持續多步推理而設計。

無論您是在構建代理協調器、編碼代理、深度研究系統還是複雜的企業自動化,Nemotron 3 Ultra 現在即可從 SageMaker JumpStart 部署。

立即開始:在 Amazon SageMaker JumpStart 中搜尋 Nemotron 3 Ultra。