滚动部署:实现模型更新的零停机时间
Baseten 推出滚动部署功能,允许团队逐步更新模型版本,无需停机或加倍 GPU 开销。该方法在每次替换一个副本,逐步转移流量,并提供暂停、恢复和回滚控制。用户报告部署频率提升 50–60%,无需在非高峰时段手动监控。
AI 工程
滚动部署:实现模型更新的零停机时间
Baseten 推出了滚动部署功能,使团队能够逐步更新模型版本,无需停机或增加 GPU 投入。这一独特方法在推理领域中逐次替换副本,逐步转移流量,直到新版本完全接管服务。
传统方案面临两难:蓝绿部署需要同时运行一整支并行舰队,导致计算开销翻倍;硬切换虽然成本低,但风险集中——一旦出问题,无法中途暂停。为降低风险,许多团队只能在非高峰时段安排部署,并手动监控数小时,这导致更新频率低下,生产模型可能落后最新版本数周。
滚动部署通过逐步替换副本解决了这些痛点。新副本启动并经过健康检查后,逐渐承接流量,旧副本则相应缩减。这个过程重复进行,直到新部署完全上线。流量仅在新副本健康后才转移,避免了因计划问题而导致的灾难。
在部署过程中,用户可以随时暂停检查指标、从断点恢复、优雅取消(将流量切回旧版本)或强制回滚。此外,还可选择强制推进完成。
底层机制包括两种配置模式:max_surge(先扩新副本再缩旧副本)适用于延迟敏感场景,max_unavailable(先缩旧副本再扩新副本)适用于计算成本约束场景。每种模式可设置 0–50% 的步进比例,控制每次更新的副本数量。
为应对长时间部署中的故障,滚动部署采用持久化工作流引擎,每个步骤都有明确定义的输入输出,自动重试、暂停/恢复语义和完整历史记录全部内置。自动扩缩容与部署流程协调,避免出现冲突:当负载变化时,系统会保持当前流量分配并同步调整两版本的副本数。可配置的稳定期(0–3600 秒)让操作者有足够时间确认新版本表现正常。
自上线以来,客户部署频率提升了 50–60%。实际使用中,用户经常利用暂停功能检查指标,或在出现回归迹象时取消部署,对健康的版本则强制推进。此前需要人工熬夜监控的部署现在可以无人值守运行。
滚动部署由 Baseten 的 Dedicated Inference 团队开发,特别感谢 Speechify 等客户在设计和测试过程中的反馈。如需了解更多,请访问 Baseten 官网或订阅新闻通讯。