AI News HubLIVE
サイト内リライト2 分で読了

「You Only Compute Once」:Clockwork が AI トレーニングの再開を終わらせる方法

Clockwork は TorchPass フォールトトレランス製品と YOCO 保証を発表。GPU クラスター障害の 90% をチェックポイントロールバックなしで解決し、トレーニングジョブを正常な GPU にライブマイグレーションすることで高コストな再計算を回避します。障害のコスト、TorchPass の仕組み、2つのモード、限界、独立したベンチマーク結果を解説。

ソースThe New Stack AI著者: Frederic Lardinois

大規模な GPU クラスターでは、常にどこかで障害が発生します。従来の対応策は、最後のチェックポイントにロールバックしてすべてを再計算することでしたが、これは時間とコストがかかります。Clockwork は TorchPass フォールトトレランス製品と「YOCO 保証」(You Only Compute Once)でこれを変えようとしています。保証の内容は、サポート対象のトレーニング実行において、障害の 90% を進捗損失なし、チェックポイントロールバックなし、再計算なしで解決するというものです。達成できない場合、顧客は次の更新または拡張時に 25% のクレジットを受け取れます。

TorchPass の核心はライブマイグレーションです。GPU またはノード全体が故障した場合、トレーニングジョブのインメモリ状態(モデルウェイト、勾配、最適化状態を含む)を正常な予備 GPU に移動し、通常数分で復旧します。CEO の Suresh Vasudevan 氏は、「AI チームが必要とするのはモデルの完成であり、ノードの稼働ではありません。業界はノードの稼働時間を信頼性と呼んできましたが、YOCO は唯一重要なこと、つまりモデルの完成に対して責任を持ちます」と述べています。

TorchPass には 2 つのモードがあります。モデル認識モードは数行の追加コードで済み、必要な状態だけを正確に取得して数十秒で復旧します。モデル透過モードはトレーニングコードの変更不要で、システムレベルのスナップショットを取得するため、より多くのデータを移動し、復旧に数分かかります。突然のクラッシュの場合、TorchPass は正常なデータ並列レプリカから失われたワーカーの状態を再構築します。

ただし、ネットワーク全体のダウンや完全な停電など、TorchPass でも対応できないケースがあります。しかし、多くの障害は局所的であり、TorchPass は GPU の温度上昇などの予兆を検知して事前にジョブを移動することも可能です。

障害のコストは深刻です。Meta FAIR の研究によると、1024 GPU クラスターの平均故障間隔は 7.9 時間、16384 GPU では 1.8 時間に低下します。Clockwork の試算では、典型的な 2048 GPU H200 構成で、障害による再起動により年間 600 万ドル以上の計算リソースが無駄になります。しかし、Zheng 氏は「このソリューションは Anthropic や OpenAI 向けではありません。彼らには十分なエンジニアリング力があります。対象は AI ネイティブのスタートアップ、企業、定量・バイオテクノロジー企業など、その他すべてです」と述べています。

独立系アナリスト SemiAnalysis の ClusterMAX ベンチマークでは、TorchPass が 64x H200 クラスターでの GPT-OSS-120B トレーニングにおいて、チェックポイント再起動よりも高速で効率的なフォールトトレランス性能を示し、TorchFT よりも MFU と tokens/sec/GPU で優れ、復旧時間は同等でした。技術メンバーの Jordan Nanos 氏は「YOCO 保証はテストで見られた結果を契約化したものです」とコメントしています。

Clockwork は可観測性にも注力しており、ファブリック問題を特定のリンクやスイッチに特定する機能を開発中です。Zheng 氏は「Google File System の頃を思い出します。開発者は一度書き込んで永続化されればよく、データセンターのディスク交換を気にする必要はありません。ソフトウェアレベルで同様の回復力層を提供し、AI 研究者がインフラを気にせずトレーニングに集中できるようにする必要があります」と述べています。