2026-06-04 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA Nemotron 3 Ultra：專為長期代理工作流打造的5500億引數開放模型

NVIDIA Nemotron 3 Ultra 是一款5500億總引數（550億活躍引數）的開放模型，專為長時間執行的代理驅動工作流設計，支援百萬token上下文，並採用NVFP4最佳化，在代理任務上具有領先的準確性和成本效益。

NVIDIA於2026年6月4日釋出了Nemotron 3 Ultra，這是一款擁有5500億總引數（每個token僅啟用550億引數）的開放模型，現已在Ollama雲端可用。該模型專為長時間執行的代理工作流而構建，旨在透過數百次工具呼叫提供快速且經濟的效能。

模型亮點

Nemotron 3 Ultra針對代理編排、編碼代理、深度研究和複雜企業工作流進行了調優，這些工作流通常跨數百個步驟執行。其100萬token的上下文視窗允許使用者將整個程式碼庫、長時間的工具歷史和研究軌跡保留在上下文中，無需擔心丟失線索。

在推理效率方面，該模型採用了NVIDIA的4位浮點格式NVFP4進行最佳化，可以將模型裝入更少的記憶體並實現更快的推理速度。5500億總引數中僅550億活躍，兼顧了前沿推理能力與高吞吐量。

快速入門

使用者只需下載Ollama，即可使用所選工具執行Nemotron 3 Ultra。例如，使用Claude Code時執行：

ollama launch claude --model nemotron-3-ultra:cloud

使用Hermes Agent：

ollama launch hermes --model nemotron-3-ultra:cloud

使用OpenClaw：

ollama launch openclaw --model nemotron-3-ultra:cloud

一般聊天：

ollama run nemotron-3-ultra:cloud

更多整合請參見官方頁面。

基準測試表現

Nemotron 3 Ultra在代理生產力、指令遵循和長上下文任務的準確性上均處於領先地位，同時提供領先的吞吐量。與其他領先的開放模型相比，成本節省高達30%。圖表顯示該模型位於準確性和吞吐量均最優的象限，並在成本效率前沿領跑。

參考資料

NVIDIA Nemotron 3 Ultra部落格及Ollama模型頁面提供更多詳細資訊。