2026-06-12站内改写2 分鐘閱讀更新: 2026-06-12

滾動部署：實現模型更新的零停機時間

Baseten 推出滾動部署功能，允許團隊逐步更新模型版本，無需停機或加倍 GPU 開銷。該方法在每次替換一個副本，逐步轉移流量，並提供暫停、恢復和回滾控制。用户報告部署頻率提升 50–60%，無需在非高峯時段手動監控。

AI 工程

滾動部署：實現模型更新的零停機時間

Baseten 推出了滾動部署功能，使團隊能夠逐步更新模型版本，無需停機或增加 GPU 投入。這一獨特方法在推理領域中逐次替換副本，逐步轉移流量，直到新版本完全接管服務。

傳統方案面臨兩難：藍綠部署需要同時運行一整支並行艦隊，導致計算開銷翻倍；硬切換雖然成本低，但風險集中——一旦出問題，無法中途暫停。為降低風險，許多團隊只能在非高峯時段安排部署，並手動監控數小時，這導致更新頻率低下，生產模型可能落後最新版本數週。

滾動部署通過逐步替換副本解決了這些痛點。新副本啓動並經過健康檢查後，逐漸承接流量，舊副本則相應縮減。這個過程重複進行，直到新部署完全上線。流量僅在新副本健康後才轉移，避免了因計劃問題而導致的災難。

在部署過程中，用户可以隨時暫停檢查指標、從斷點恢復、優雅取消（將流量切回舊版本）或強制回滾。此外，還可選擇強制推進完成。

底層機制包括兩種配置模式：max_surge（先擴新副本再縮舊副本）適用於延遲敏感場景，max_unavailable（先縮舊副本再擴新副本）適用於計算成本約束場景。每種模式可設置 0–50% 的步進比例，控制每次更新的副本數量。

為應對長時間部署中的故障，滾動部署採用持久化工作流引擎，每個步驟都有明確定義的輸入輸出，自動重試、暫停/恢復語義和完整歷史記錄全部內置。自動擴縮容與部署流程協調，避免出現衝突：當負載變化時，系統會保持當前流量分配並同步調整兩版本的副本數。可配置的穩定期（0–3600 秒）讓操作者有足夠時間確認新版本表現正常。

自上線以來，客户部署頻率提升了 50–60%。實際使用中，用户經常利用暫停功能檢查指標，或在出現迴歸跡象時取消部署，對健康的版本則強制推進。此前需要人工熬夜監控的部署現在可以無人值守運行。

滾動部署由 Baseten 的 Dedicated Inference 團隊開發，特別感謝 Speechify 等客户在設計和測試過程中的反饋。如需瞭解更多，請訪問 Baseten 官網或訂閲新聞通訊。