AI News HubLIVE
站内改写1 分钟阅读

NVIDIA Nemotron 3 Ultra 在 Fireworks 上线,零日支持

NVIDIA 发布 Nemotron 3 Ultra 开源模型,专为长时自主代理任务优化,拥有 550B 总参数、混合 Transformer-Mamba MoE 架构,可在 Fireworks 平台零日部署。该模型在代理任务上推理速度提升 5 倍,成本降低 30%,支持从训练到生产的一体化流程。

NVIDIA 今日正式宣布,其最新开源模型 Nemotron 3 Ultra 在 Fireworks 平台上线,并提供零日支持。该模型专为长时间运行的自主代理任务而设计,旨在解决传统模型在逐步推理过程中成本过高的问题,为编码代理、深度研究及复杂企业工作流等场景提供前沿推理与编排能力。

Nemotron 3 Ultra 拥有 550B 总参数,其中 55B 为活跃参数,采用混合 Transformer-Mamba MoE 架构,支持高达 1M 的上下文长度。NVIDIA 报告称,相比同类开源模型,该模型在代理任务中推理速度提升 5 倍,成本降低 30%。这意味着衡量标准不再仅仅关注单次响应成本,而是完成任务的总成本和耗时。

从今日起,用户可通过 Fireworks 平台一键部署 Nemotron 3 Ultra 至专属 GPU,享受低延迟、无硬性速率限制的稳定性能。Fireworks 运行在 NVIDIA B300 和 B200 GPU 之上,并利用其专有的 FireAttention 自定义内核等优化技术,在完全保留模型质量的前提下,将吞吐量提升至 4 倍。对于追求高效任务完成的长代理运行场景,Fireworks 提供了理想的环境。

Fireworks 不仅支持推理,还允许用户在同一平台进行后训练。团队可通过监督微调(SFT)和直接偏好优化(DPO),选择 LoRA 或全参数训练来定制模型。由于训练和推理运行在同一基础设施上,无需系统间切换或模型重新打包,从而消除了部署中的不确定性。Factory AI 的 CTO Eno Reyes 表示:“Factory 帮助企业构建自主软件工厂,Fireworks 对 Nemotron 3 Ultra 等前沿开源模型的快速访问,使我们能迅速将最新的 AI 能力引入企业软件开发。”

部署方面,按需部署提供专属 GPU,按 GPU 秒计费,实际负载下成本高效。用户只需单个命令即可完成部署。NVIDIA 与 Fireworks 的合作旨在让全球开发者轻松获得这些突破性模型。如需了解更多信息,可访问 Fireworks 官网或加入 Discord 社区。