AI News HubLIVE
站内改写1 分鐘閱讀

NVIDIA Nemotron 3 Ultra 在 Fireworks 上線,零日支援

NVIDIA 釋出 Nemotron 3 Ultra 開源模型,專為長時自主代理任務最佳化,擁有 550B 總引數、混合 Transformer-Mamba MoE 架構,可在 Fireworks 平臺零日部署。該模型在代理任務上推理速度提升 5 倍,成本降低 30%,支援從訓練到生產的一體化流程。

NVIDIA 今日正式宣佈,其最新開源模型 Nemotron 3 Ultra 在 Fireworks 平臺上線,並提供零日支援。該模型專為長時間執行的自主代理任務而設計,旨在解決傳統模型在逐步推理過程中成本過高的問題,為編碼代理、深度研究及複雜企業工作流等場景提供前沿推理與編排能力。

Nemotron 3 Ultra 擁有 550B 總引數,其中 55B 為活躍引數,採用混合 Transformer-Mamba MoE 架構,支援高達 1M 的上下文長度。NVIDIA 報告稱,相比同類開源模型,該模型在代理任務中推理速度提升 5 倍,成本降低 30%。這意味著衡量標準不再僅僅關注單次響應成本,而是完成任務的總成本和耗時。

從今日起,使用者可透過 Fireworks 平臺一鍵部署 Nemotron 3 Ultra 至專屬 GPU,享受低延遲、無硬性速率限制的穩定效能。Fireworks 執行在 NVIDIA B300 和 B200 GPU 之上,並利用其專有的 FireAttention 自定義核心等最佳化技術,在完全保留模型質量的前提下,將吞吐量提升至 4 倍。對於追求高效任務完成的長代理執行場景,Fireworks 提供了理想的環境。

Fireworks 不僅支援推理,還允許使用者在同一平臺進行後訓練。團隊可透過監督微調(SFT)和直接偏好最佳化(DPO),選擇 LoRA 或全引數訓練來定製模型。由於訓練和推理執行在同一基礎設施上,無需系統間切換或模型重新打包,從而消除了部署中的不確定性。Factory AI 的 CTO Eno Reyes 表示:“Factory 幫助企業構建自主軟體工廠,Fireworks 對 Nemotron 3 Ultra 等前沿開源模型的快速訪問,使我們能迅速將最新的 AI 能力引入企業軟體開發。”

部署方面,按需部署提供專屬 GPU,按 GPU 秒計費,實際負載下成本高效。使用者只需單個命令即可完成部署。NVIDIA 與 Fireworks 的合作旨在讓全球開發者輕鬆獲得這些突破性模型。如需瞭解更多資訊,可訪問 Fireworks 官網或加入 Discord 社群。