NVIDIA Nemotron 3 Ultra 發佈:Nemotron 3.x 系列來了!
Nemotron 3 Ultra 是一種混合 Mamba-Transformer 模型,專為長時間運行的代理設計,通過用 Mamba 層替換大部分注意力機制,實現高達 5 倍的推理速度提升和 30% 的成本降低。該模型完全開源,使代理能夠高效完成冗長任務而不會變慢。
NVIDIA 近日發佈了 Nemotron 3 Ultra,這是一款專為長時間運行的自主代理設計的混合專家(MoE)語言模型,擁有 5500 億總參數(每 token 活躍參數 550 億)。與現有的大多數模型不同,Nemotron 3 Ultra 採用了一種創新的混合架構,大部分層為 Mamba 層(狀態空間模型),僅保留少部分注意力層。這種設計解決了 Transformer 模型中注意力機制隨上下文長度二次增長的問題,使得代理在長任務中不會變慢。
在傳統的 Transformer 模型中,隨着上下文不斷累積,每個步驟的計算量呈二次增長,導致代理在運行數百步後變得極其緩慢。而 Mamba 層通過維護一個固定大小的狀態,使得每一步的成本保持恆定。Nemotron 3 Ultra 巧妙地將兩者結合:Mamba 層負責處理大部分上下文,保證速度;注意力層則用於需要精確回溯的場景。這種組合使得代理在第 3 步和第 300 步的速度幾乎相同。
據 NVIDIA 報告,與同類開放前沿模型相比,Nemotron 3 Ultra 在長時間運行的代理工作流中實現了高達 5 倍的推理速度提升和 30% 的成本降低。該模型完全開源,包括模型權重、訓練數據和配方均以 NVIDIA 開放模型許可發佈。NVIDIA 使用強化學習在多種代理環境中進行了後訓練,使模型能夠更好地適應代理循環而非單次對話。
Nemotron 3 Ultra 的應用場景廣泛,尤其適合需要大量步驟的複雜任務。例如,代碼智能體、深度研究(搜索和綜合數百個來源)、企業工作流(全天候的持久化工具調用循環)、芯片設計(電子設計自動化中的 RTL 生成和驗證)等。在這些場景中,代理需要處理不斷增長的上下文,而 Nemotron 的線性成本特性使其成為理想選擇。
除了核心的 Nemotron 3 Ultra,NVIDIA 還發布了兩個附加模型:Nemotron 3.5 ASR(支持 40 種語言地區的流式語音識別,延遲可配置)和 Nemotron 3.5 Content Safety(用於文本和圖像的多模態安全審核)。這些模型已在 Baseten 上提供,可通過 OpenAI 兼容的端點訪問。Nemotron 3 Ultra 的 1200 億參數版本 Nemotron 3 Super 也已上線,適合短任務或對延遲敏感的單次調用。