2026-06-12站内改写2 分钟阅读更新: 2026-06-12

滚动部署：实现模型更新的零停机时间

Baseten 推出滚动部署功能，允许团队逐步更新模型版本，无需停机或加倍 GPU 开销。该方法在每次替换一个副本，逐步转移流量，并提供暂停、恢复和回滚控制。用户报告部署频率提升 50–60%，无需在非高峰时段手动监控。

AI 工程

滚动部署：实现模型更新的零停机时间

Baseten 推出了滚动部署功能，使团队能够逐步更新模型版本，无需停机或增加 GPU 投入。这一独特方法在推理领域中逐次替换副本，逐步转移流量，直到新版本完全接管服务。

传统方案面临两难：蓝绿部署需要同时运行一整支并行舰队，导致计算开销翻倍；硬切换虽然成本低，但风险集中——一旦出问题，无法中途暂停。为降低风险，许多团队只能在非高峰时段安排部署，并手动监控数小时，这导致更新频率低下，生产模型可能落后最新版本数周。

滚动部署通过逐步替换副本解决了这些痛点。新副本启动并经过健康检查后，逐渐承接流量，旧副本则相应缩减。这个过程重复进行，直到新部署完全上线。流量仅在新副本健康后才转移，避免了因计划问题而导致的灾难。

在部署过程中，用户可以随时暂停检查指标、从断点恢复、优雅取消（将流量切回旧版本）或强制回滚。此外，还可选择强制推进完成。

底层机制包括两种配置模式：max_surge（先扩新副本再缩旧副本）适用于延迟敏感场景，max_unavailable（先缩旧副本再扩新副本）适用于计算成本约束场景。每种模式可设置 0–50% 的步进比例，控制每次更新的副本数量。

为应对长时间部署中的故障，滚动部署采用持久化工作流引擎，每个步骤都有明确定义的输入输出，自动重试、暂停/恢复语义和完整历史记录全部内置。自动扩缩容与部署流程协调，避免出现冲突：当负载变化时，系统会保持当前流量分配并同步调整两版本的副本数。可配置的稳定期（0–3600 秒）让操作者有足够时间确认新版本表现正常。

自上线以来，客户部署频率提升了 50–60%。实际使用中，用户经常利用暂停功能检查指标，或在出现回归迹象时取消部署，对健康的版本则强制推进。此前需要人工熬夜监控的部署现在可以无人值守运行。

滚动部署由 Baseten 的 Dedicated Inference 团队开发，特别感谢 Speechify 等客户在设计和测试过程中的反馈。如需了解更多，请访问 Baseten 官网或订阅新闻通讯。