AI News HubLIVE
站内改写2 分钟阅读

NVIDIA Blackwell 在首个代理式 AI 基础设施基准测试中领先

Artificial Analysis 发布业界首个代理式 AI 基准测试 AgentPerf,首轮结果显示 NVIDIA Blackwell Ultra NVL72 平台在代理式 AI 工作负载中性能领先,每兆瓦可运行 20 倍于 Hopper 的代理。基准测试基于真实编码代理轨迹,测量平台在满足响应速度输出速率阈值下能同时支持的代理任务数。

来源NVIDIA Blog作者: Shruti Koparkar

Artificial Analysis 发布了 AgentPerf,这是业界首个专门针对代理式人工智能(AI)的基础设施基准测试。该基准测试为开发者、企业和基础设施提供商提供了一种清晰的方法,用以比较不同系统在代理式 AI 工作负载下的表现。在首轮公布的结果中,NVIDIA Blackwell Ultra NVL72 平台在所有测试的代理式 AI 工作负载中均实现了领先的性能,每兆瓦功耗可运行的代理数量是前代 NVIDIA Hopper 平台的 20 倍。

代理式 AI 是一种与对话式 AI 截然不同的工作负载。一次简单的聊天补全就像短跑:一次大型语言模型(LLM)调用,一次响应。而代理则更像接力赛:它将目标分解为多个步骤,并持续执行直到任务完成。代理将多个 LLM 调用和工具调用串联起来,以收集上下文、观察、推理和行动。这导致数十到数百次 LLM 调用被串联在一起,每次调用都将不断增长的上下文传递给下一次,并在每次交接时涉及代码编译执行、数据库搜索和网页浏览等工具调用。这种复杂性不是简单的相加,而是成倍增长的。

这种区别对性能测量至关重要。现有的 AI 推理基准测试只测量单一的 LLM 调用:系统对一个请求的响应速度以及能同时处理多少请求。它们并非为代理式工作负载设计,而后者通过链式 LLM 调用、工具调用延迟和不断增长的上下文,以根本不同于单一 LLM 调用的方式给加速计算系统带来了压力。对于大规模构建和部署代理的企业而言,了解代理的响应速度、可同时部署的数量以及每一美元和每瓦特投入能带来多少有用工作至关重要。

在首轮测试中,AgentPerf 使用 DeepSeek V4 Pro 这一大型混合专家(MoE)模型来衡量代理性能。该模型代表了当前驱动最强大代理的前沿模型类别。在此工作负载下,NVIDIA GB300 NVL72 实现了基准测试中的最高性能,每兆瓦可运行的代理数量是 NVIDIA HGX H200 系统的 20 倍。在每秒每代理 20 和 60 token 的服务水平目标下,GB300 NVL72 每兆瓦支持的并发代理数均远超 H200。

这一性能优势源于全栈的极致协同设计。GB300 NVL72 将 72 块 GPU 连接成一个机架级系统,使 DeepSeek V4 Pro 等大型 MoE 模型能够在规模上高效分布模型执行。CUDA 内核通过重叠通信和计算进一步加速,使得跨专家协调的成本被吸收而非增加延迟。NVIDIA TensorRT LLM 在并发代理会话扩展时保持效率,例如它将输入处理与输出生成分离,以便各自独立优化。

这些结果基于一个从零开始构建、反映代理式 AI 实际生产工作方式的基准测试方法。AgentPerf 基于真实的编码代理轨迹:代理接收任务、读取文件、编写和编辑代码、执行命令并根据结果迭代——所有操作均来自 12 种以上编程语言的真实公共代码仓库。长序列长度、工具调用模式和延迟均代表了真实的编码工作流。AgentPerf 随后测量平台在满足响应速度和输出 token 速率定义阈值的同时,能支持多少这些代理任务。工具调用不实际执行,而是使用代表性的 CPU 处理时间进行模拟,因此结果的差异仅反映加速计算性能。

结果直接转化为基础设施决策:每加速器和每兆瓦功耗可运行多少并发代理任务。对于大规模部署 AI 代理的企业,这些数字决定了给定基础设施投资能实际产生多少有效工作。

领先的推理提供商如 Baseten、DeepInfra 和 Together AI 已经在 NVIDIA Blackwell 上为 DeepSeek V4 Pro 等前沿模型提供代理工作负载服务,并支持生产级代理应用。Together AI 为 AI 驱动的代理编码平台 Cursor 提供实时推理,运行在 Blackwell 上。Cursor 的代理在开发者继续工作的同时,调试问题、生成功能和执行重构。DeepInfra 为汽车经销商的 AI 劳动力平台 Pam.ai 提供支持,该平台在 Blackwell 上部署代理来预约服务、处理电话和执行外呼销售活动。随着 NVIDIA 和开源社区持续优化推理软件,代理工作负载的性能和效率将进一步提升。NVIDIA Vera Rubin 架构现已全面投产,为满足日益增长的代理式 AI 需求带来下一代基础设施能力。