2026-07-02 01:30 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 01:35 UTC+8

“你只計算一次”：Clockwork 如何終結 AI 訓練重啟

Clockwork 推出 TorchPass 容錯產品和 YOCO 保證，宣稱 90% 的 GPU 叢集故障無需回滾檢查點，透過即時遷移訓練作業到健康 GPU 來避免昂貴的重算。文章分析了當前訓練中斷的成本、TorchPass 的工作原理、兩種模式（模型感知與模型透明）、侷限性以及獨立基準測試結果。

來源The New Stack AI作者: Frederic Lardinois

在大規模 GPU 叢集上，故障幾乎是常態。傳統做法是回滾到最後一次檢查點並重新計算，這不僅緩慢且成本高昂。Clockwork 希望用 TorchPass 容錯產品改變這一現狀，並於本月推出了“YOCO 保證”（You Only Compute Once）。該保證承諾：在受支援的訓練執行中，90% 的故障將在不丟失進度、不回滾檢查點、不重算的情況下解決。如果未能達標，客戶將獲得下一期續訂或擴容 25% 的信用額度。

TorchPass 的核心是即時遷移。當 GPU 或整節點故障時，它可以將訓練作業的記憶體狀態（包括模型權重、梯度和最佳化器狀態）轉移到健康的備用 GPU 上，通常在幾分鐘內恢復執行。CEO Suresh Vasudevan 表示：“AI 團隊需要的是模型完成，而不是節點線上。行業一直用節點線上率來衡量可靠性，YOCO 讓我們對唯一重要的事負責——你的模型，完成。”

TorchPass 提供兩種模式：模型感知模式只需幾行額外程式碼，能精確抓取所需狀態，恢復時間縮短至數十秒；模型透明模式無需修改訓練程式碼，而是透過系統級快照遷移，恢復時間稍長（幾分鐘）。對於突然崩潰（無法快照的情況），TorchPass 可從健康的資料並行副本重建丟失工作節點的狀態。

當然，TorchPass 也有侷限性。首席商務官 Dan Zheng 承認：“如果整個網路癱瘓，或者完全斷電，那就無能為力了。” 但多數故障是區域性性的，TorchPass 甚至可以提前預警：當 GPU 溫度超過閾值時，能在故障發生前主動遷移作業。

故障帶來的成本不容忽視。Meta FAIR 團隊的研究顯示，1024 GPU 叢集的平均故障間隔為 7.9 小時，16384 GPU 叢集則降至 1.8 小時。Clockwork 估計，在典型的 2048 GPU H200 部署中，故障驅動的重啟每年浪費超過 600 萬美元的計算資源。然而，Zheng 指出：“這套方案不是為 Anthropic 或 OpenAI 設計的，他們有充足的工程人力。它是為其他所有人——AI 原生初創公司、企業、量化及生物科技公司——提供前沿 AI 實驗室級別的韌性。”

獨立分析機構 SemiAnalysis 在其 ClusterMAX 基準測試中驗證了 TorchPass 的效果。技術成員 Jordan Nanos 表示：“在我們的測試中，針對 64x H200 叢集上的 GPT-OSS-120B 訓練，TorchPass 在作業完成時間上實現了最快、最高效的容錯效能，同時優於 TorchFT（在 MFU 和 tokens/sec/GPU 方面），恢復時間相當。YOCO 保證只是將測試結果合同化。”

除了 TorchPass，Clockwork 還深耕可觀測性。其叢集監控工具能夠將網路問題追溯到具體鏈路或交換機，目前已與幾家大型雲運營商進行試點。早期發現效能下降的 GPU 或擁塞鏈路後，TorchPass 可在故障發生前完成遷移。Zheng 回憶：“這有點像谷歌檔案系統——開發者只需寫入一次並確保資料持久化，無需關心底層磁碟的更換。我們需要在軟體層實現同樣的韌性層，讓 AI 研究員專注於訓練，而不是基礎設施。”