NVIDIA 推理軟體堆疊如何實現最低令牌成本
NVIDIA 的推理軟體堆疊透過與 GPU、CPU、網路和系統的協同設計,並藉助開源生態系統,持續提升硬體效能。在 Blackwell 平臺上,該軟體堆疊在一個月內將 DeepSeek V4 模型的令牌成本降低了 5 倍。文章詳細介紹了軟體最佳化如何透過生產運營、應用加速和基礎設施訪問三個層次,將單個最佳化轉化為系統級效能提升,從而降低每令牌成本。
隨著組織從 AI 試點轉向生產級 AI 工廠,基礎設施決策已從峰值晶片規格轉向每令牌成本:每美元、每瓦特和在所需延遲目標內能交付多少有用令牌。NVIDIA 的推理軟體堆疊與 GPU、CPU、網路和系統協同設計,並透過廣泛的開放原始碼生態系統得到加強,持續提升硬體效能。在 NVIDIA Blackwell 平臺上,軟體堆疊已在一個月內將 DeepSeek V4 模型的令牌成本降低多達 5 倍。
領先的公司和推理提供商已經看到 NVIDIA 推理軟體堆疊在 Blackwell 上的複合價值:Baseten 使用 NVIDIA TensorRT-LLM 開放原始碼庫在 Blackwell GPU 上服務 DeepSeek V4 Pro,用於推理、編碼和長上下文工作負載,透過專有執行時最佳化提供多達 50% 的更高令牌吞吐量。Cognition 使用 NVIDIA Dynamo 推理框架管理推理 GPU,為其團隊提供了一條現成的路徑來擴充套件強化學習工作負載,而無需從零開始構建基礎設施。Deep Infra 使用 NVIDIA 推理軟體堆疊從第一天起就在 Blackwell 上高效能地服務前沿開放模型,包括 DeepSeek V4。Together AI 使用 NVIDIA TensorRT-LLM 在 Blackwell 上幫助 Cursor 加速從模型最佳化到生產端點的路徑,以實現即時編碼體驗。
為什麼軟體對於推理經濟性至關重要?傳統的 Web、搜尋和 SaaS 工作負載相對可預測,但代理式 AI 則不同。代理式 AI 執行分散式、有狀態的工作流,這些工作流跨越資料中心內的 LLM、工具、記憶體、安全性、網路和加速計算。代理可以推理、規劃、呼叫工具、啟動專業子代理並管理多輪工作流中的大規模上下文。它們將單個請求轉化為一個分散式計算問題,可能涉及數百個子代理、數千個任務和多個大語言模型,執行在 GPU、CPU、DPU 和儲存系統上。軟體堆疊決定了這種複雜性是轉化為浪費的容量還是更低的每令牌成本。
更低的每令牌成本來自於將單個最佳化轉化為系統級效能。NVIDIA 的推理軟體堆疊透過連線三個層次來實現這一點:生產運營層協調分散式服務、編排、自動縮放和記憶體管理,以便推理可以在正確的計算和儲存資源上執行;應用加速層以高效能執行模型,同時為開發人員提供調整和定製的空間,使用重疊計算和通訊、核心融合等執行時最佳化;基礎設施訪問層暴露 NVIDIA GPU、網路、記憶體和系統能力,而無需開發人員直接管理每個裝置指令集或資料傳輸協議。NVIDIA 軟體堆疊涵蓋模型服務、執行時排程、核心、通訊庫和硬體感知最佳化,隨著改進在層間複合,實現快速效能提升和更低的推理成本。當這些層次作為一個系統工作時,單個最佳化會相互疊加。
例如,分離式服務、基於 NVIDIA NVLink 互連技術的大規模專家並行、NVFP4 精度和多令牌預測各自都能帶來顯著的收益。綜合起來,它們可將吞吐量提高多達 20 倍。實現這一增益在生產中非常複雜,需要跨越整個推理堆疊的協調,從生產運營和模型執行時刻到核心、通訊庫和硬體訪問。NVIDIA 的推理軟體堆疊旨在使這些層次協同工作,以便每個最佳化都能建立在其他最佳化之上。
這種全棧基礎還透過開放原始碼生態系統得到了放大。當今許多最廣泛使用的開放原始碼 AI 框架和推理專案都原生構建在 NVIDIA CUDA 上,這意味著新研究和軟體最佳化從第一天起就在 NVIDIA GPU 上以領先效能執行。PyTorch 是一個主要例子。自 2016 年推出以來,PyTorch 就原生支援 CUDA,並與 NVIDIA 架構共同演進,使開發人員能夠透過熟悉的框架直接訪問 Tensor Cores、Transformer Engine 和 NVFP4 等創新。當突破性技術如 DFlash 推測解碼(在現有硬體上提供多達 15 倍的吞吐量提升)或 FastVideo(在不到五秒內生成 1080p 影片)登陸 PyTorch 時,它們可以立即在 NVIDIA 上執行,幫助 AI 工廠將研究進展轉化為更低的令牌成本。
同樣的開放原始碼勢頭意味著,當像 DeepSeek V4 這樣的前沿開放模型釋出時,領先的推理框架如 vLLM 和 SGLang 會為 NVIDIA Blackwell 架構提供即日部署方案,使該模型在數百萬 Blackwell GPU 上可用。這也是為什麼 DeepSeek V4 在 Blackwell 上的效能在約一個月內透過 vLLM 和 SGLang 框架提升了多達 5 倍,將令牌成本降至先前水平的大約五分之一。這就是開放原始碼的飛輪效應:更多開發者最佳化 CUDA 原生推理路徑,更多生產部署反饋到生態系統中,每個軟體改進都會增加交付的令牌輸出,同時隨著時間的推移降低每令牌成本。