2026-06-12站内改写2 分鐘閱讀更新: 2026-06-13

NVIDIA Blackwell 在首個代理式 AI 基礎設施基準測試中領先

Artificial Analysis 釋出業界首個代理式 AI 基準測試 AgentPerf，首輪結果顯示 NVIDIA Blackwell Ultra NVL72 平臺在代理式 AI 工作負載中效能領先，每兆瓦可執行 20 倍於 Hopper 的代理。基準測試基於真實編碼代理軌跡，測量平臺在滿足響應速度輸出速率閾值下能同時支援的代理任務數。

來源NVIDIA Blog作者: Shruti Koparkar

Artificial Analysis 釋出了 AgentPerf，這是業界首個專門針對代理式人工智慧（AI）的基礎設施基準測試。該基準測試為開發者、企業和基礎設施提供商提供了一種清晰的方法，用以比較不同系統在代理式 AI 工作負載下的表現。在首輪公佈的結果中，NVIDIA Blackwell Ultra NVL72 平臺在所有測試的代理式 AI 工作負載中均實現了領先的效能，每兆瓦功耗可執行的代理數量是前代 NVIDIA Hopper 平臺的 20 倍。

代理式 AI 是一種與對話式 AI 截然不同的工作負載。一次簡單的聊天補全就像短跑：一次大型語言模型（LLM）呼叫，一次響應。而代理則更像接力賽：它將目標分解為多個步驟，並持續執行直到任務完成。代理將多個 LLM 呼叫和工具呼叫串聯起來，以收集上下文、觀察、推理和行動。這導致數十到數百次 LLM 呼叫被串聯在一起，每次呼叫都將不斷增長的上下文傳遞給下一次，並在每次交接時涉及程式碼編譯執行、資料庫搜尋和網頁瀏覽等工具呼叫。這種複雜性不是簡單的相加，而是成倍增長的。

這種區別對效能測量至關重要。現有的 AI 推理基準測試只測量單一的 LLM 呼叫：系統對一個請求的響應速度以及能同時處理多少請求。它們並非為代理式工作負載設計，而後者透過鏈式 LLM 呼叫、工具呼叫延遲和不斷增長的上下文，以根本不同於單一 LLM 呼叫的方式給加速計算系統帶來了壓力。對於大規模構建和部署代理的企業而言，瞭解代理的響應速度、可同時部署的數量以及每一美元和每瓦特投入能帶來多少有用工作至關重要。

在首輪測試中，AgentPerf 使用 DeepSeek V4 Pro 這一大型混合專家（MoE）模型來衡量代理效能。該模型代表了當前驅動最強大代理的前沿模型類別。在此工作負載下，NVIDIA GB300 NVL72 實現了基準測試中的最高效能，每兆瓦可執行的代理數量是 NVIDIA HGX H200 系統的 20 倍。在每秒每代理 20 和 60 token 的服務水平目標下，GB300 NVL72 每兆瓦支援的併發代理數均遠超 H200。

這一效能優勢源於全棧的極致協同設計。GB300 NVL72 將 72 塊 GPU 連線成一個機架級系統，使 DeepSeek V4 Pro 等大型 MoE 模型能夠在規模上高效分佈模型執行。CUDA 核心透過重疊通訊和計算進一步加速，使得跨專家協調的成本被吸收而非增加延遲。NVIDIA TensorRT LLM 在併發代理會話擴充套件時保持效率，例如它將輸入處理與輸出生成分離，以便各自獨立最佳化。

這些結果基於一個從零開始構建、反映代理式 AI 實際生產工作方式的基準測試方法。AgentPerf 基於真實的編碼代理軌跡：代理接收任務、讀取檔案、編寫和編輯程式碼、執行命令並根據結果迭代——所有操作均來自 12 種以上程式語言的真實公共程式碼倉庫。長序列長度、工具呼叫模式和延遲均代表了真實的編碼工作流。AgentPerf 隨後測量平臺在滿足響應速度和輸出 token 速率定義閾值的同時，能支援多少這些代理任務。工具呼叫不實際執行，而是使用代表性的 CPU 處理時間進行模擬，因此結果的差異僅反映加速計算效能。

結果直接轉化為基礎設施決策：每加速器和每兆瓦功耗可執行多少併發代理任務。對於大規模部署 AI 代理的企業，這些數字決定了給定基礎設施投資能實際產生多少有效工作。

領先的推理提供商如 Baseten、DeepInfra 和 Together AI 已經在 NVIDIA Blackwell 上為 DeepSeek V4 Pro 等前沿模型提供代理工作負載服務，並支援生產級代理應用。Together AI 為 AI 驅動的代理編碼平臺 Cursor 提供即時推理，執行在 Blackwell 上。Cursor 的代理在開發者繼續工作的同時，除錯問題、生成功能和執行重構。DeepInfra 為汽車經銷商的 AI 勞動力平臺 Pam.ai 提供支援，該平臺在 Blackwell 上部署代理來預約服務、處理電話和執行外呼銷售活動。隨著 NVIDIA 和開源社群持續最佳化推理軟體，代理工作負載的效能和效率將進一步提升。NVIDIA Vera Rubin 架構現已全面投產，為滿足日益增長的代理式 AI 需求帶來下一代基礎設施能力。