AI News HubLIVE
站內改寫2 分鐘閱讀

NVCF:大規模部署和路由 GPU 加速 AI 工作負載

NVIDIA Cloud Functions (NVCF) 是一個用於大規模部署、管理和運行 GPU 加速工作負載的開源平台。它支持長期運行的函數和異步任務,利用 Kubernetes 進行編排,並提供統一控制平面、負載均衡路由、多集羣自動縮放等功能。本文介紹了 NVCF 的架構、工作負載類型、核心能力以及如何使用 Bazel 構建。

來源Hacker News AI作者: mastabadtomm

NVIDIA Cloud Functions (NVCF) 是 NVIDIA 推出的一個開源平台,旨在簡化 GPU 加速工作負載的部署、管理和擴展。該平台最初在 NVIDIA GTC 上發佈,如今其代碼已在 GitHub 上公開,供開發者自託管使用。NVCF 的核心目標是讓 AI 推理、流處理和批處理等 GPU 密集型任務能夠像調用雲函數一樣簡單,同時保持對基礎設施的靈活控制。

NVCF 的架構基於 Kubernetes,由三個主要平面組成:控制平面負責管理函數生命週期、API 暴露和狀態協調;調用平面處理 HTTP、流和 gRPC 請求,進行路由和限流;計算平面通過 NVIDIA 集羣代理 (NVCA) 與 GPU 節點集成,執行實際工作負載。這種設計支持跨區域和多 GPU 集羣的部署,使工作負載可以就近路由,降低延遲。

平台定義了兩類工作負載:函數 (Function) 和任務 (Task)。函數是長期運行的服務,適用於需要持續端點的推理或流處理場景;任務則是異步運行至完成的工作負載,適合批量推理、模型評估、微調或數據預處理。兩者均可打包為單個容器鏡像或 Helm chart,後者適用於需要多個協同容器或額外 Kubernetes 資源的複雜工作負載。

NVCF 提供了豐富的核心能力:統一控制面板管理跨區域集羣的請求路由;基於工作節點可用性的負載均衡;支持多協議(HTTP、gRPC、流);多集羣自動縮放,從零實例擴展到最大容量;混合 GPU 類型支持;以及健康檢查和遙測功能,用於監控工作節點狀態和請求延遲。這些特性使得 NVCF 尤其適合需要彈性擴展和高可用性的 AI 應用。

使用 NVCF 的典型工作流包括:通過 nvcf-cli 初始化、生成 API 密鑰、創建和部署函數,最後調用函數。詳細步驟可參考項目文檔中的 CLI 指南和快速入門。項目還提供了豐富的示例和工具,幫助開發者快速上手。

在構建方面,NVCF 採用 Bazel 作為統一的構建和測試工具。整個單體倉庫 (monorepo) 使用 Bazel 管理,支持構建原生二進制、多平台分發以及 OCI 鏡像。開發者可以通過簡單的命令構建整個項目或特定服務,並利用遠程緩存加速構建過程。

NVCF 是一個活躍的開源項目,歡迎社區貢獻。項目遵循 Apache-2.0 許可證,並提供了詳細的貢獻指南和行為準則。其公共路線圖通過 GitHub Issue 跟蹤,用户可以通過 Discussions 獲取支持。隨着更多功能的完善,NVCF 有望成為 GPU 雲原生工作負載管理的重要基礎設施。