2026-06-04 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA Nemotron 3 Ultra：專為長期代理工作流打造的5500億參數開放模型

NVIDIA Nemotron 3 Ultra 是一款5500億總參數（550億活躍參數）的開放模型，專為長時間運行的代理驅動工作流設計，支持百萬token上下文，並採用NVFP4優化，在代理任務上具有領先的準確性和成本效益。

NVIDIA於2026年6月4日發佈了Nemotron 3 Ultra，這是一款擁有5500億總參數（每個token僅激活550億參數）的開放模型，現已在Ollama雲端可用。該模型專為長時間運行的代理工作流而構建，旨在通過數百次工具調用提供快速且經濟的性能。

模型亮點

Nemotron 3 Ultra針對代理編排、編碼代理、深度研究和複雜企業工作流進行了調優，這些工作流通常跨數百個步驟運行。其100萬token的上下文窗口允許用户將整個代碼庫、長時間的工具歷史和研究軌跡保留在上下文中，無需擔心丟失線索。

在推理效率方面，該模型採用了NVIDIA的4位浮點格式NVFP4進行優化，可以將模型裝入更少的內存並實現更快的推理速度。5500億總參數中僅550億活躍，兼顧了前沿推理能力與高吞吐量。

快速入門

用户只需下載Ollama，即可使用所選工具運行Nemotron 3 Ultra。例如，使用Claude Code時運行：

ollama launch claude --model nemotron-3-ultra:cloud

使用Hermes Agent：

ollama launch hermes --model nemotron-3-ultra:cloud

使用OpenClaw：

ollama launch openclaw --model nemotron-3-ultra:cloud

一般聊天：

ollama run nemotron-3-ultra:cloud

更多集成請參見官方頁面。

基準測試表現

Nemotron 3 Ultra在代理生產力、指令遵循和長上下文任務的準確性上均處於領先地位，同時提供領先的吞吐量。與其他領先的開放模型相比，成本節省高達30%。圖表顯示該模型位於準確性和吞吐量均最優的象限，並在成本效率前沿領跑。

參考資料

NVIDIA Nemotron 3 Ultra博客及Ollama模型頁面提供更多詳細信息。