2026-06-04 21:50 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

NVIDIA Nemotron 3 Ultra 發佈：Nemotron 3.x 系列來了！

Nemotron 3 Ultra 是一種混合 Mamba-Transformer 模型，專為長時間運行的代理設計，通過用 Mamba 層替換大部分注意力機制，實現高達 5 倍的推理速度提升和 30% 的成本降低。該模型完全開源，使代理能夠高效完成冗長任務而不會變慢。

來源Baseten Blog

NVIDIA 近日發佈了 Nemotron 3 Ultra，這是一款專為長時間運行的自主代理設計的混合專家（MoE）語言模型，擁有 5500 億總參數（每 token 活躍參數 550 億）。與現有的大多數模型不同，Nemotron 3 Ultra 採用了一種創新的混合架構，大部分層為 Mamba 層（狀態空間模型），僅保留少部分注意力層。這種設計解決了 Transformer 模型中注意力機制隨上下文長度二次增長的問題，使得代理在長任務中不會變慢。

在傳統的 Transformer 模型中，隨着上下文不斷累積，每個步驟的計算量呈二次增長，導致代理在運行數百步後變得極其緩慢。而 Mamba 層通過維護一個固定大小的狀態，使得每一步的成本保持恆定。Nemotron 3 Ultra 巧妙地將兩者結合：Mamba 層負責處理大部分上下文，保證速度；注意力層則用於需要精確回溯的場景。這種組合使得代理在第 3 步和第 300 步的速度幾乎相同。

據 NVIDIA 報告，與同類開放前沿模型相比，Nemotron 3 Ultra 在長時間運行的代理工作流中實現了高達 5 倍的推理速度提升和 30% 的成本降低。該模型完全開源，包括模型權重、訓練數據和配方均以 NVIDIA 開放模型許可發佈。NVIDIA 使用強化學習在多種代理環境中進行了後訓練，使模型能夠更好地適應代理循環而非單次對話。

Nemotron 3 Ultra 的應用場景廣泛，尤其適合需要大量步驟的複雜任務。例如，代碼智能體、深度研究（搜索和綜合數百個來源）、企業工作流（全天候的持久化工具調用循環）、芯片設計（電子設計自動化中的 RTL 生成和驗證）等。在這些場景中，代理需要處理不斷增長的上下文，而 Nemotron 的線性成本特性使其成為理想選擇。

除了核心的 Nemotron 3 Ultra，NVIDIA 還發布了兩個附加模型：Nemotron 3.5 ASR（支持 40 種語言地區的流式語音識別，延遲可配置）和 Nemotron 3.5 Content Safety（用於文本和圖像的多模態安全審核）。這些模型已在 Baseten 上提供，可通過 OpenAI 兼容的端點訪問。Nemotron 3 Ultra 的 1200 億參數版本 Nemotron 3 Super 也已上線，適合短任務或對延遲敏感的單次調用。