AI News HubLIVE
站内改写2 分鐘閱讀

滾動部署:實現模型更新的零停機時間

Baseten 推出滾動部署功能,允許團隊逐步更新模型版本,無需停機或加倍 GPU 開銷。該方法在每次替換一個副本,逐步轉移流量,並提供暫停、恢復和回滾控制。用户報告部署頻率提升 50–60%,無需在非高峯時段手動監控。

AI 工程

滾動部署:實現模型更新的零停機時間

Baseten 推出了滾動部署功能,使團隊能夠逐步更新模型版本,無需停機或增加 GPU 投入。這一獨特方法在推理領域中逐次替換副本,逐步轉移流量,直到新版本完全接管服務。

傳統方案面臨兩難:藍綠部署需要同時運行一整支並行艦隊,導致計算開銷翻倍;硬切換雖然成本低,但風險集中——一旦出問題,無法中途暫停。為降低風險,許多團隊只能在非高峯時段安排部署,並手動監控數小時,這導致更新頻率低下,生產模型可能落後最新版本數週。

滾動部署通過逐步替換副本解決了這些痛點。新副本啓動並經過健康檢查後,逐漸承接流量,舊副本則相應縮減。這個過程重複進行,直到新部署完全上線。流量僅在新副本健康後才轉移,避免了因計劃問題而導致的災難。

在部署過程中,用户可以隨時暫停檢查指標、從斷點恢復、優雅取消(將流量切回舊版本)或強制回滾。此外,還可選擇強制推進完成。

底層機制包括兩種配置模式:max_surge(先擴新副本再縮舊副本)適用於延遲敏感場景,max_unavailable(先縮舊副本再擴新副本)適用於計算成本約束場景。每種模式可設置 0–50% 的步進比例,控制每次更新的副本數量。

為應對長時間部署中的故障,滾動部署採用持久化工作流引擎,每個步驟都有明確定義的輸入輸出,自動重試、暫停/恢復語義和完整歷史記錄全部內置。自動擴縮容與部署流程協調,避免出現衝突:當負載變化時,系統會保持當前流量分配並同步調整兩版本的副本數。可配置的穩定期(0–3600 秒)讓操作者有足夠時間確認新版本表現正常。

自上線以來,客户部署頻率提升了 50–60%。實際使用中,用户經常利用暫停功能檢查指標,或在出現迴歸跡象時取消部署,對健康的版本則強制推進。此前需要人工熬夜監控的部署現在可以無人值守運行。

滾動部署由 Baseten 的 Dedicated Inference 團隊開發,特別感謝 Speechify 等客户在設計和測試過程中的反饋。如需瞭解更多,請訪問 Baseten 官網或訂閲新聞通訊。