NVIDIA 推理软件堆栈如何实现最低令牌成本
NVIDIA 的推理软件堆栈通过与 GPU、CPU、网络和系统的协同设计,并借助开源生态系统,持续提升硬件性能。在 Blackwell 平台上,该软件堆栈在一个月内将 DeepSeek V4 模型的令牌成本降低了 5 倍。文章详细介绍了软件优化如何通过生产运营、应用加速和基础设施访问三个层次,将单个优化转化为系统级性能提升,从而降低每令牌成本。
随着组织从 AI 试点转向生产级 AI 工厂,基础设施决策已从峰值芯片规格转向每令牌成本:每美元、每瓦特和在所需延迟目标内能交付多少有用令牌。NVIDIA 的推理软件堆栈与 GPU、CPU、网络和系统协同设计,并通过广泛的开放源代码生态系统得到加强,持续提升硬件性能。在 NVIDIA Blackwell 平台上,软件堆栈已在一个月内将 DeepSeek V4 模型的令牌成本降低多达 5 倍。
领先的公司和推理提供商已经看到 NVIDIA 推理软件堆栈在 Blackwell 上的复合价值:Baseten 使用 NVIDIA TensorRT-LLM 开放源代码库在 Blackwell GPU 上服务 DeepSeek V4 Pro,用于推理、编码和长上下文工作负载,通过专有运行时优化提供多达 50% 的更高令牌吞吐量。Cognition 使用 NVIDIA Dynamo 推理框架管理推理 GPU,为其团队提供了一条现成的路径来扩展强化学习工作负载,而无需从零开始构建基础设施。Deep Infra 使用 NVIDIA 推理软件堆栈从第一天起就在 Blackwell 上高性能地服务前沿开放模型,包括 DeepSeek V4。Together AI 使用 NVIDIA TensorRT-LLM 在 Blackwell 上帮助 Cursor 加速从模型优化到生产端点的路径,以实现实时编码体验。
为什么软件对于推理经济性至关重要?传统的 Web、搜索和 SaaS 工作负载相对可预测,但代理式 AI 则不同。代理式 AI 运行分布式、有状态的工作流,这些工作流跨越数据中心内的 LLM、工具、内存、安全性、网络和加速计算。代理可以推理、规划、调用工具、启动专业子代理并管理多轮工作流中的大规模上下文。它们将单个请求转化为一个分布式计算问题,可能涉及数百个子代理、数千个任务和多个大语言模型,运行在 GPU、CPU、DPU 和存储系统上。软件堆栈决定了这种复杂性是转化为浪费的容量还是更低的每令牌成本。
更低的每令牌成本来自于将单个优化转化为系统级性能。NVIDIA 的推理软件堆栈通过连接三个层次来实现这一点:生产运营层协调分布式服务、编排、自动缩放和内存管理,以便推理可以在正确的计算和存储资源上运行;应用加速层以高性能运行模型,同时为开发人员提供调整和定制的空间,使用重叠计算和通信、内核融合等运行时优化;基础设施访问层暴露 NVIDIA GPU、网络、内存和系统能力,而无需开发人员直接管理每个设备指令集或数据传输协议。NVIDIA 软件堆栈涵盖模型服务、运行时调度、内核、通信库和硬件感知优化,随着改进在层间复合,实现快速性能提升和更低的推理成本。当这些层次作为一个系统工作时,单个优化会相互叠加。
例如,分离式服务、基于 NVIDIA NVLink 互连技术的大规模专家并行、NVFP4 精度和多令牌预测各自都能带来显著的收益。综合起来,它们可将吞吐量提高多达 20 倍。实现这一增益在生产中非常复杂,需要跨越整个推理堆栈的协调,从生产运营和模型运行时刻到内核、通信库和硬件访问。NVIDIA 的推理软件堆栈旨在使这些层次协同工作,以便每个优化都能建立在其他优化之上。
这种全栈基础还通过开放源代码生态系统得到了放大。当今许多最广泛使用的开放源代码 AI 框架和推理项目都原生构建在 NVIDIA CUDA 上,这意味着新研究和软件优化从第一天起就在 NVIDIA GPU 上以领先性能运行。PyTorch 是一个主要例子。自 2016 年推出以来,PyTorch 就原生支持 CUDA,并与 NVIDIA 架构共同演进,使开发人员能够通过熟悉的框架直接访问 Tensor Cores、Transformer Engine 和 NVFP4 等创新。当突破性技术如 DFlash 推测解码(在现有硬件上提供多达 15 倍的吞吐量提升)或 FastVideo(在不到五秒内生成 1080p 视频)登陆 PyTorch 时,它们可以立即在 NVIDIA 上运行,帮助 AI 工厂将研究进展转化为更低的令牌成本。
同样的开放源代码势头意味着,当像 DeepSeek V4 这样的前沿开放模型发布时,领先的推理框架如 vLLM 和 SGLang 会为 NVIDIA Blackwell 架构提供即日部署方案,使该模型在数百万 Blackwell GPU 上可用。这也是为什么 DeepSeek V4 在 Blackwell 上的性能在约一个月内通过 vLLM 和 SGLang 框架提升了多达 5 倍,将令牌成本降至先前水平的大约五分之一。这就是开放源代码的飞轮效应:更多开发者优化 CUDA 原生推理路径,更多生产部署反馈到生态系统中,每个软件改进都会增加交付的令牌输出,同时随着时间的推移降低每令牌成本。