2026-07-02 01:30 UTC+8站内改写2 分钟阅读更新: 2026-07-02 01:35 UTC+8

“你只计算一次”：Clockwork 如何终结 AI 训练重启

Clockwork 推出 TorchPass 容错产品和 YOCO 保证，宣称 90% 的 GPU 集群故障无需回滚检查点，通过实时迁移训练作业到健康 GPU 来避免昂贵的重算。文章分析了当前训练中断的成本、TorchPass 的工作原理、两种模式（模型感知与模型透明）、局限性以及独立基准测试结果。

来源The New Stack AI作者: Frederic Lardinois

在大规模 GPU 集群上，故障几乎是常态。传统做法是回滚到最后一次检查点并重新计算，这不仅缓慢且成本高昂。Clockwork 希望用 TorchPass 容错产品改变这一现状，并于本月推出了“YOCO 保证”（You Only Compute Once）。该保证承诺：在受支持的训练运行中，90% 的故障将在不丢失进度、不回滚检查点、不重算的情况下解决。如果未能达标，客户将获得下一期续订或扩容 25% 的信用额度。

TorchPass 的核心是实时迁移。当 GPU 或整节点故障时，它可以将训练作业的内存状态（包括模型权重、梯度和优化器状态）转移到健康的备用 GPU 上，通常在几分钟内恢复运行。CEO Suresh Vasudevan 表示：“AI 团队需要的是模型完成，而不是节点在线。行业一直用节点在线率来衡量可靠性，YOCO 让我们对唯一重要的事负责——你的模型，完成。”

TorchPass 提供两种模式：模型感知模式只需几行额外代码，能精确抓取所需状态，恢复时间缩短至数十秒；模型透明模式无需修改训练代码，而是通过系统级快照迁移，恢复时间稍长（几分钟）。对于突然崩溃（无法快照的情况），TorchPass 可从健康的数据并行副本重建丢失工作节点的状态。

当然，TorchPass 也有局限性。首席商务官 Dan Zheng 承认：“如果整个网络瘫痪，或者完全断电，那就无能为力了。” 但多数故障是局部性的，TorchPass 甚至可以提前预警：当 GPU 温度超过阈值时，能在故障发生前主动迁移作业。

故障带来的成本不容忽视。Meta FAIR 团队的研究显示，1024 GPU 集群的平均故障间隔为 7.9 小时，16384 GPU 集群则降至 1.8 小时。Clockwork 估计，在典型的 2048 GPU H200 部署中，故障驱动的重启每年浪费超过 600 万美元的计算资源。然而，Zheng 指出：“这套方案不是为 Anthropic 或 OpenAI 设计的，他们有充足的工程人力。它是为其他所有人——AI 原生初创公司、企业、量化及生物科技公司——提供前沿 AI 实验室级别的韧性。”

独立分析机构 SemiAnalysis 在其 ClusterMAX 基准测试中验证了 TorchPass 的效果。技术成员 Jordan Nanos 表示：“在我们的测试中，针对 64x H200 集群上的 GPT-OSS-120B 训练，TorchPass 在作业完成时间上实现了最快、最高效的容错性能，同时优于 TorchFT（在 MFU 和 tokens/sec/GPU 方面），恢复时间相当。YOCO 保证只是将测试结果合同化。”

除了 TorchPass，Clockwork 还深耕可观测性。其集群监控工具能够将网络问题追溯到具体链路或交换机，目前已与几家大型云运营商进行试点。早期发现性能下降的 GPU 或拥塞链路后，TorchPass 可在故障发生前完成迁移。Zheng 回忆：“这有点像谷歌文件系统——开发者只需写入一次并确保数据持久化，无需关心底层磁盘的更换。我们需要在软件层实现同样的韧性层，让 AI 研究员专注于训练，而不是基础设施。”