2026-06-12站内改写1 分鐘閱讀更新: 2026-06-12

NVIDIA Nemotron 3 Ultra 在 Fireworks 上線，零日支援

NVIDIA 釋出 Nemotron 3 Ultra 開源模型，專為長時自主代理任務最佳化，擁有 550B 總引數、混合 Transformer-Mamba MoE 架構，可在 Fireworks 平臺零日部署。該模型在代理任務上推理速度提升 5 倍，成本降低 30%，支援從訓練到生產的一體化流程。

來源Fireworks AI Blog

NVIDIA 今日正式宣佈，其最新開源模型 Nemotron 3 Ultra 在 Fireworks 平臺上線，並提供零日支援。該模型專為長時間執行的自主代理任務而設計，旨在解決傳統模型在逐步推理過程中成本過高的問題，為編碼代理、深度研究及複雜企業工作流等場景提供前沿推理與編排能力。

Nemotron 3 Ultra 擁有 550B 總引數，其中 55B 為活躍引數，採用混合 Transformer-Mamba MoE 架構，支援高達 1M 的上下文長度。NVIDIA 報告稱，相比同類開源模型，該模型在代理任務中推理速度提升 5 倍，成本降低 30%。這意味著衡量標準不再僅僅關注單次響應成本，而是完成任務的總成本和耗時。

從今日起，使用者可透過 Fireworks 平臺一鍵部署 Nemotron 3 Ultra 至專屬 GPU，享受低延遲、無硬性速率限制的穩定效能。Fireworks 執行在 NVIDIA B300 和 B200 GPU 之上，並利用其專有的 FireAttention 自定義核心等最佳化技術，在完全保留模型質量的前提下，將吞吐量提升至 4 倍。對於追求高效任務完成的長代理執行場景，Fireworks 提供了理想的環境。

Fireworks 不僅支援推理，還允許使用者在同一平臺進行後訓練。團隊可透過監督微調（SFT）和直接偏好最佳化（DPO），選擇 LoRA 或全引數訓練來定製模型。由於訓練和推理執行在同一基礎設施上，無需系統間切換或模型重新打包，從而消除了部署中的不確定性。Factory AI 的 CTO Eno Reyes 表示：“Factory 幫助企業構建自主軟體工廠，Fireworks 對 Nemotron 3 Ultra 等前沿開源模型的快速訪問，使我們能迅速將最新的 AI 能力引入企業軟體開發。”

部署方面，按需部署提供專屬 GPU，按 GPU 秒計費，實際負載下成本高效。使用者只需單個命令即可完成部署。NVIDIA 與 Fireworks 的合作旨在讓全球開發者輕鬆獲得這些突破性模型。如需瞭解更多資訊，可訪問 Fireworks 官網或加入 Discord 社群。