NVIDIA Nemotron 3 Ultra:專為長期代理工作流打造的5500億引數開放模型
NVIDIA Nemotron 3 Ultra 是一款5500億總引數(550億活躍引數)的開放模型,專為長時間執行的代理驅動工作流設計,支援百萬token上下文,並採用NVFP4最佳化,在代理任務上具有領先的準確性和成本效益。
NVIDIA於2026年6月4日釋出了Nemotron 3 Ultra,這是一款擁有5500億總引數(每個token僅啟用550億引數)的開放模型,現已在Ollama雲端可用。該模型專為長時間執行的代理工作流而構建,旨在透過數百次工具呼叫提供快速且經濟的效能。
模型亮點
Nemotron 3 Ultra針對代理編排、編碼代理、深度研究和複雜企業工作流進行了調優,這些工作流通常跨數百個步驟執行。其100萬token的上下文視窗允許使用者將整個程式碼庫、長時間的工具歷史和研究軌跡保留在上下文中,無需擔心丟失線索。
在推理效率方面,該模型採用了NVIDIA的4位浮點格式NVFP4進行最佳化,可以將模型裝入更少的記憶體並實現更快的推理速度。5500億總引數中僅550億活躍,兼顧了前沿推理能力與高吞吐量。
快速入門
使用者只需下載Ollama,即可使用所選工具執行Nemotron 3 Ultra。例如,使用Claude Code時執行:
ollama launch claude --model nemotron-3-ultra:cloud
使用Hermes Agent:
ollama launch hermes --model nemotron-3-ultra:cloud
使用OpenClaw:
ollama launch openclaw --model nemotron-3-ultra:cloud
一般聊天:
ollama run nemotron-3-ultra:cloud
更多整合請參見官方頁面。
基準測試表現
Nemotron 3 Ultra在代理生產力、指令遵循和長上下文任務的準確性上均處於領先地位,同時提供領先的吞吐量。與其他領先的開放模型相比,成本節省高達30%。圖表顯示該模型位於準確性和吞吐量均最優的象限,並在成本效率前沿領跑。
參考資料
NVIDIA Nemotron 3 Ultra部落格及Ollama模型頁面提供更多詳細資訊。