AI News HubLIVE
站內改寫2 分鐘閱讀

NVCF:大規模部署和路由 GPU 加速 AI 工作負載

NVIDIA Cloud Functions (NVCF) 是一個用於大規模部署、管理和執行 GPU 加速工作負載的開源平臺。它支援長期執行的函式和非同步任務,利用 Kubernetes 進行編排,並提供統一控制平面、負載均衡路由、多叢集自動縮放等功能。本文介紹了 NVCF 的架構、工作負載型別、核心能力以及如何使用 Bazel 構建。

來源Hacker News AI作者: mastabadtomm

NVIDIA Cloud Functions (NVCF) 是 NVIDIA 推出的一個開源平臺,旨在簡化 GPU 加速工作負載的部署、管理和擴充套件。該平臺最初在 NVIDIA GTC 上釋出,如今其程式碼已在 GitHub 上公開,供開發者自託管使用。NVCF 的核心目標是讓 AI 推理、流處理和批處理等 GPU 密集型任務能夠像呼叫雲函式一樣簡單,同時保持對基礎設施的靈活控制。

NVCF 的架構基於 Kubernetes,由三個主要平面組成:控制平面負責管理函式生命週期、API 暴露和狀態協調;呼叫平面處理 HTTP、流和 gRPC 請求,進行路由和限流;計算平面透過 NVIDIA 叢集代理 (NVCA) 與 GPU 節點整合,執行實際工作負載。這種設計支援跨區域和多 GPU 叢集的部署,使工作負載可以就近路由,降低延遲。

平臺定義了兩類工作負載:函式 (Function) 和任務 (Task)。函式是長期執行的服務,適用於需要持續端點的推理或流處理場景;任務則是非同步執行至完成的工作負載,適合批次推理、模型評估、微調或資料預處理。兩者均可打包為單個容器映象或 Helm chart,後者適用於需要多個協同容器或額外 Kubernetes 資源的複雜工作負載。

NVCF 提供了豐富的核心能力:統一控制面板管理跨區域叢集的請求路由;基於工作節點可用性的負載均衡;支援多協議(HTTP、gRPC、流);多叢集自動縮放,從零例項擴充套件到最大容量;混合 GPU 型別支援;以及健康檢查和遙測功能,用於監控工作節點狀態和請求延遲。這些特性使得 NVCF 尤其適合需要彈性擴充套件和高可用性的 AI 應用。

使用 NVCF 的典型工作流包括:透過 nvcf-cli 初始化、生成 API 金鑰、建立和部署函式,最後呼叫函式。詳細步驟可參考專案文件中的 CLI 指南和快速入門。專案還提供了豐富的示例和工具,幫助開發者快速上手。

在構建方面,NVCF 採用 Bazel 作為統一的構建和測試工具。整個單體倉庫 (monorepo) 使用 Bazel 管理,支援構建原生二進位制、多平臺分發以及 OCI 映象。開發者可以透過簡單的命令構建整個專案或特定服務,並利用遠端快取加速構建過程。

NVCF 是一個活躍的開源專案,歡迎社群貢獻。專案遵循 Apache-2.0 許可證,並提供了詳細的貢獻指南和行為準則。其公共路線圖透過 GitHub Issue 跟蹤,使用者可以透過 Discussions 獲取支援。隨著更多功能的完善,NVCF 有望成為 GPU 雲原生工作負載管理的重要基礎設施。