2026-06-12站内改写1 分钟阅读更新: 2026-06-12

NVIDIA Nemotron 3 Ultra 在 Fireworks 上线，零日支持

NVIDIA 发布 Nemotron 3 Ultra 开源模型，专为长时自主代理任务优化，拥有 550B 总参数、混合 Transformer-Mamba MoE 架构，可在 Fireworks 平台零日部署。该模型在代理任务上推理速度提升 5 倍，成本降低 30%，支持从训练到生产的一体化流程。

来源Fireworks AI Blog

NVIDIA 今日正式宣布，其最新开源模型 Nemotron 3 Ultra 在 Fireworks 平台上线，并提供零日支持。该模型专为长时间运行的自主代理任务而设计，旨在解决传统模型在逐步推理过程中成本过高的问题，为编码代理、深度研究及复杂企业工作流等场景提供前沿推理与编排能力。

Nemotron 3 Ultra 拥有 550B 总参数，其中 55B 为活跃参数，采用混合 Transformer-Mamba MoE 架构，支持高达 1M 的上下文长度。NVIDIA 报告称，相比同类开源模型，该模型在代理任务中推理速度提升 5 倍，成本降低 30%。这意味着衡量标准不再仅仅关注单次响应成本，而是完成任务的总成本和耗时。

从今日起，用户可通过 Fireworks 平台一键部署 Nemotron 3 Ultra 至专属 GPU，享受低延迟、无硬性速率限制的稳定性能。Fireworks 运行在 NVIDIA B300 和 B200 GPU 之上，并利用其专有的 FireAttention 自定义内核等优化技术，在完全保留模型质量的前提下，将吞吐量提升至 4 倍。对于追求高效任务完成的长代理运行场景，Fireworks 提供了理想的环境。

Fireworks 不仅支持推理，还允许用户在同一平台进行后训练。团队可通过监督微调（SFT）和直接偏好优化（DPO），选择 LoRA 或全参数训练来定制模型。由于训练和推理运行在同一基础设施上，无需系统间切换或模型重新打包，从而消除了部署中的不确定性。Factory AI 的 CTO Eno Reyes 表示：“Factory 帮助企业构建自主软件工厂，Fireworks 对 Nemotron 3 Ultra 等前沿开源模型的快速访问，使我们能迅速将最新的 AI 能力引入企业软件开发。”

部署方面，按需部署提供专属 GPU，按 GPU 秒计费，实际负载下成本高效。用户只需单个命令即可完成部署。NVIDIA 与 Fireworks 的合作旨在让全球开发者轻松获得这些突破性模型。如需了解更多信息，可访问 Fireworks 官网或加入 Discord 社区。