NVIDIA Nemotron 3 Ultra:專為長期代理工作流打造的5500億參數開放模型
NVIDIA Nemotron 3 Ultra 是一款5500億總參數(550億活躍參數)的開放模型,專為長時間運行的代理驅動工作流設計,支持百萬token上下文,並採用NVFP4優化,在代理任務上具有領先的準確性和成本效益。
NVIDIA於2026年6月4日發佈了Nemotron 3 Ultra,這是一款擁有5500億總參數(每個token僅激活550億參數)的開放模型,現已在Ollama雲端可用。該模型專為長時間運行的代理工作流而構建,旨在通過數百次工具調用提供快速且經濟的性能。
模型亮點
Nemotron 3 Ultra針對代理編排、編碼代理、深度研究和複雜企業工作流進行了調優,這些工作流通常跨數百個步驟運行。其100萬token的上下文窗口允許用户將整個代碼庫、長時間的工具歷史和研究軌跡保留在上下文中,無需擔心丟失線索。
在推理效率方面,該模型採用了NVIDIA的4位浮點格式NVFP4進行優化,可以將模型裝入更少的內存並實現更快的推理速度。5500億總參數中僅550億活躍,兼顧了前沿推理能力與高吞吐量。
快速入門
用户只需下載Ollama,即可使用所選工具運行Nemotron 3 Ultra。例如,使用Claude Code時運行:
ollama launch claude --model nemotron-3-ultra:cloud
使用Hermes Agent:
ollama launch hermes --model nemotron-3-ultra:cloud
使用OpenClaw:
ollama launch openclaw --model nemotron-3-ultra:cloud
一般聊天:
ollama run nemotron-3-ultra:cloud
更多集成請參見官方頁面。
基準測試表現
Nemotron 3 Ultra在代理生產力、指令遵循和長上下文任務的準確性上均處於領先地位,同時提供領先的吞吐量。與其他領先的開放模型相比,成本節省高達30%。圖表顯示該模型位於準確性和吞吐量均最優的象限,並在成本效率前沿領跑。
參考資料
NVIDIA Nemotron 3 Ultra博客及Ollama模型頁面提供更多詳細信息。