2026-06-30 23:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 23:13 UTC+8

NVIDIA 推理軟件堆棧如何實現最低令牌成本

NVIDIA 的推理軟件堆棧通過與 GPU、CPU、網絡和系統的協同設計，並藉助開源生態系統，持續提升硬件性能。在 Blackwell 平台上，該軟件堆棧在一個月內將 DeepSeek V4 模型的令牌成本降低了 5 倍。文章詳細介紹了軟件優化如何通過生產運營、應用加速和基礎設施訪問三個層次，將單個優化轉化為系統級性能提升，從而降低每令牌成本。

來源NVIDIA Blog作者: Amr Elmeleegy

隨着組織從 AI 試點轉向生產級 AI 工廠，基礎設施決策已從峯值芯片規格轉向每令牌成本：每美元、每瓦特和在所需延遲目標內能交付多少有用令牌。NVIDIA 的推理軟件堆棧與 GPU、CPU、網絡和系統協同設計，並通過廣泛的開放源代碼生態系統得到加強，持續提升硬件性能。在 NVIDIA Blackwell 平台上，軟件堆棧已在一個月內將 DeepSeek V4 模型的令牌成本降低多達 5 倍。

領先的公司和推理提供商已經看到 NVIDIA 推理軟件堆棧在 Blackwell 上的複合價值：Baseten 使用 NVIDIA TensorRT-LLM 開放源代碼庫在 Blackwell GPU 上服務 DeepSeek V4 Pro，用於推理、編碼和長上下文工作負載，通過專有運行時優化提供多達 50% 的更高令牌吞吐量。Cognition 使用 NVIDIA Dynamo 推理框架管理推理 GPU，為其團隊提供了一條現成的路徑來擴展強化學習工作負載，而無需從零開始構建基礎設施。Deep Infra 使用 NVIDIA 推理軟件堆棧從第一天起就在 Blackwell 上高性能地服務前沿開放模型，包括 DeepSeek V4。Together AI 使用 NVIDIA TensorRT-LLM 在 Blackwell 上幫助 Cursor 加速從模型優化到生產端點的路徑，以實現實時編碼體驗。

為什麼軟件對於推理經濟性至關重要？傳統的 Web、搜索和 SaaS 工作負載相對可預測，但代理式 AI 則不同。代理式 AI 運行分佈式、有狀態的工作流，這些工作流跨越數據中心內的 LLM、工具、內存、安全性、網絡和加速計算。代理可以推理、規劃、調用工具、啓動專業子代理並管理多輪工作流中的大規模上下文。它們將單個請求轉化為一個分佈式計算問題，可能涉及數百個子代理、數千個任務和多個大語言模型，運行在 GPU、CPU、DPU 和存儲系統上。軟件堆棧決定了這種複雜性是轉化為浪費的容量還是更低的每令牌成本。

更低的每令牌成本來自於將單個優化轉化為系統級性能。NVIDIA 的推理軟件堆棧通過連接三個層次來實現這一點：生產運營層協調分佈式服務、編排、自動縮放和內存管理，以便推理可以在正確的計算和存儲資源上運行；應用加速層以高性能運行模型，同時為開發人員提供調整和定製的空間，使用重疊計算和通信、內核融合等運行時優化；基礎設施訪問層暴露 NVIDIA GPU、網絡、內存和系統能力，而無需開發人員直接管理每個設備指令集或數據傳輸協議。NVIDIA 軟件堆棧涵蓋模型服務、運行時調度、內核、通信庫和硬件感知優化，隨着改進在層間複合，實現快速性能提升和更低的推理成本。當這些層次作為一個系統工作時，單個優化會相互疊加。

例如，分離式服務、基於 NVIDIA NVLink 互連技術的大規模專家並行、NVFP4 精度和多令牌預測各自都能帶來顯著的收益。綜合起來，它們可將吞吐量提高多達 20 倍。實現這一增益在生產中非常複雜，需要跨越整個推理堆棧的協調，從生產運營和模型運行時刻到內核、通信庫和硬件訪問。NVIDIA 的推理軟件堆棧旨在使這些層次協同工作，以便每個優化都能建立在其他優化之上。

這種全棧基礎還通過開放源代碼生態系統得到了放大。當今許多最廣泛使用的開放源代碼 AI 框架和推理項目都原生構建在 NVIDIA CUDA 上，這意味着新研究和軟件優化從第一天起就在 NVIDIA GPU 上以領先性能運行。PyTorch 是一個主要例子。自 2016 年推出以來，PyTorch 就原生支持 CUDA，並與 NVIDIA 架構共同演進，使開發人員能夠通過熟悉的框架直接訪問 Tensor Cores、Transformer Engine 和 NVFP4 等創新。當突破性技術如 DFlash 推測解碼（在現有硬件上提供多達 15 倍的吞吐量提升）或 FastVideo（在不到五秒內生成 1080p 視頻）登陸 PyTorch 時，它們可以立即在 NVIDIA 上運行，幫助 AI 工廠將研究進展轉化為更低的令牌成本。

同樣的開放源代碼勢頭意味着，當像 DeepSeek V4 這樣的前沿開放模型發佈時，領先的推理框架如 vLLM 和 SGLang 會為 NVIDIA Blackwell 架構提供即日部署方案，使該模型在數百萬 Blackwell GPU 上可用。這也是為什麼 DeepSeek V4 在 Blackwell 上的性能在約一個月內通過 vLLM 和 SGLang 框架提升了多達 5 倍，將令牌成本降至先前水平的大約五分之一。這就是開放源代碼的飛輪效應：更多開發者優化 CUDA 原生推理路徑，更多生產部署反饋到生態系統中，每個軟件改進都會增加交付的令牌輸出，同時隨着時間的推移降低每令牌成本。