AI News HubLIVE
站内改写2 分钟阅读

“你只计算一次”:Clockwork 如何终结 AI 训练重启

Clockwork 推出 TorchPass 容错产品和 YOCO 保证,宣称 90% 的 GPU 集群故障无需回滚检查点,通过实时迁移训练作业到健康 GPU 来避免昂贵的重算。文章分析了当前训练中断的成本、TorchPass 的工作原理、两种模式(模型感知与模型透明)、局限性以及独立基准测试结果。

来源The New Stack AI作者: Frederic Lardinois

在大规模 GPU 集群上,故障几乎是常态。传统做法是回滚到最后一次检查点并重新计算,这不仅缓慢且成本高昂。Clockwork 希望用 TorchPass 容错产品改变这一现状,并于本月推出了“YOCO 保证”(You Only Compute Once)。该保证承诺:在受支持的训练运行中,90% 的故障将在不丢失进度、不回滚检查点、不重算的情况下解决。如果未能达标,客户将获得下一期续订或扩容 25% 的信用额度。

TorchPass 的核心是实时迁移。当 GPU 或整节点故障时,它可以将训练作业的内存状态(包括模型权重、梯度和优化器状态)转移到健康的备用 GPU 上,通常在几分钟内恢复运行。CEO Suresh Vasudevan 表示:“AI 团队需要的是模型完成,而不是节点在线。行业一直用节点在线率来衡量可靠性,YOCO 让我们对唯一重要的事负责——你的模型,完成。”

TorchPass 提供两种模式:模型感知模式只需几行额外代码,能精确抓取所需状态,恢复时间缩短至数十秒;模型透明模式无需修改训练代码,而是通过系统级快照迁移,恢复时间稍长(几分钟)。对于突然崩溃(无法快照的情况),TorchPass 可从健康的数据并行副本重建丢失工作节点的状态。

当然,TorchPass 也有局限性。首席商务官 Dan Zheng 承认:“如果整个网络瘫痪,或者完全断电,那就无能为力了。” 但多数故障是局部性的,TorchPass 甚至可以提前预警:当 GPU 温度超过阈值时,能在故障发生前主动迁移作业。

故障带来的成本不容忽视。Meta FAIR 团队的研究显示,1024 GPU 集群的平均故障间隔为 7.9 小时,16384 GPU 集群则降至 1.8 小时。Clockwork 估计,在典型的 2048 GPU H200 部署中,故障驱动的重启每年浪费超过 600 万美元的计算资源。然而,Zheng 指出:“这套方案不是为 Anthropic 或 OpenAI 设计的,他们有充足的工程人力。它是为其他所有人——AI 原生初创公司、企业、量化及生物科技公司——提供前沿 AI 实验室级别的韧性。”

独立分析机构 SemiAnalysis 在其 ClusterMAX 基准测试中验证了 TorchPass 的效果。技术成员 Jordan Nanos 表示:“在我们的测试中,针对 64x H200 集群上的 GPT-OSS-120B 训练,TorchPass 在作业完成时间上实现了最快、最高效的容错性能,同时优于 TorchFT(在 MFU 和 tokens/sec/GPU 方面),恢复时间相当。YOCO 保证只是将测试结果合同化。”

除了 TorchPass,Clockwork 还深耕可观测性。其集群监控工具能够将网络问题追溯到具体链路或交换机,目前已与几家大型云运营商进行试点。早期发现性能下降的 GPU 或拥塞链路后,TorchPass 可在故障发生前完成迁移。Zheng 回忆:“这有点像谷歌文件系统——开发者只需写入一次并确保数据持久化,无需关心底层磁盘的更换。我们需要在软件层实现同样的韧性层,让 AI 研究员专注于训练,而不是基础设施。”