“你只計算一次”:Clockwork 如何終結 AI 訓練重啟
Clockwork 推出 TorchPass 容錯產品和 YOCO 保證,宣稱 90% 的 GPU 叢集故障無需回滾檢查點,透過即時遷移訓練作業到健康 GPU 來避免昂貴的重算。文章分析了當前訓練中斷的成本、TorchPass 的工作原理、兩種模式(模型感知與模型透明)、侷限性以及獨立基準測試結果。
在大規模 GPU 叢集上,故障幾乎是常態。傳統做法是回滾到最後一次檢查點並重新計算,這不僅緩慢且成本高昂。Clockwork 希望用 TorchPass 容錯產品改變這一現狀,並於本月推出了“YOCO 保證”(You Only Compute Once)。該保證承諾:在受支援的訓練執行中,90% 的故障將在不丟失進度、不回滾檢查點、不重算的情況下解決。如果未能達標,客戶將獲得下一期續訂或擴容 25% 的信用額度。
TorchPass 的核心是即時遷移。當 GPU 或整節點故障時,它可以將訓練作業的記憶體狀態(包括模型權重、梯度和最佳化器狀態)轉移到健康的備用 GPU 上,通常在幾分鐘內恢復執行。CEO Suresh Vasudevan 表示:“AI 團隊需要的是模型完成,而不是節點線上。行業一直用節點線上率來衡量可靠性,YOCO 讓我們對唯一重要的事負責——你的模型,完成。”
TorchPass 提供兩種模式:模型感知模式只需幾行額外程式碼,能精確抓取所需狀態,恢復時間縮短至數十秒;模型透明模式無需修改訓練程式碼,而是透過系統級快照遷移,恢復時間稍長(幾分鐘)。對於突然崩潰(無法快照的情況),TorchPass 可從健康的資料並行副本重建丟失工作節點的狀態。
當然,TorchPass 也有侷限性。首席商務官 Dan Zheng 承認:“如果整個網路癱瘓,或者完全斷電,那就無能為力了。” 但多數故障是區域性性的,TorchPass 甚至可以提前預警:當 GPU 溫度超過閾值時,能在故障發生前主動遷移作業。
故障帶來的成本不容忽視。Meta FAIR 團隊的研究顯示,1024 GPU 叢集的平均故障間隔為 7.9 小時,16384 GPU 叢集則降至 1.8 小時。Clockwork 估計,在典型的 2048 GPU H200 部署中,故障驅動的重啟每年浪費超過 600 萬美元的計算資源。然而,Zheng 指出:“這套方案不是為 Anthropic 或 OpenAI 設計的,他們有充足的工程人力。它是為其他所有人——AI 原生初創公司、企業、量化及生物科技公司——提供前沿 AI 實驗室級別的韌性。”
獨立分析機構 SemiAnalysis 在其 ClusterMAX 基準測試中驗證了 TorchPass 的效果。技術成員 Jordan Nanos 表示:“在我們的測試中,針對 64x H200 叢集上的 GPT-OSS-120B 訓練,TorchPass 在作業完成時間上實現了最快、最高效的容錯效能,同時優於 TorchFT(在 MFU 和 tokens/sec/GPU 方面),恢復時間相當。YOCO 保證只是將測試結果合同化。”
除了 TorchPass,Clockwork 還深耕可觀測性。其叢集監控工具能夠將網路問題追溯到具體鏈路或交換機,目前已與幾家大型雲運營商進行試點。早期發現效能下降的 GPU 或擁塞鏈路後,TorchPass 可在故障發生前完成遷移。Zheng 回憶:“這有點像谷歌檔案系統——開發者只需寫入一次並確保資料持久化,無需關心底層磁碟的更換。我們需要在軟體層實現同樣的韌性層,讓 AI 研究員專注於訓練,而不是基礎設施。”