ホットタブより熱い:AI最大のマシンを冷やす45°Cのブレークスルー
NVIDIAの最新Rubin AIサーバーは、100%液体冷却を実現し、冷却液温度は45°Cに達します。これはホットタブよりも熱く、エネルギー効率を大幅に向上させ、冷却エネルギー消費と水使用量を削減します。適切な気候では、チラーなしの運転が可能で、水消費をほぼゼロにできます。従来のデータセンターでは冷却に最大40%の電力を消費していましたが、液体冷却により大幅なコスト削減が可能です。
ホットタブの温度は通常38~40°Cで、ほとんどの人は約15分しか浸かれません。NVIDIAの最新AIサーバーは、それよりも高い最大45°C(113°F)の冷却液を利用できます。この高い温度制限こそが、エネルギー効率を高める鍵です。
NVIDIAのRubin世代AIインフラストラクチャは、世界初の100%液体冷却を実現しました。すべてのチップ、すべてのネットワーキングコンポーネントが、密閉ループ内で液体によって完全に冷却され、システム内にファンはありません。この液体冷却方式は、AIファクトリの設計、構築、運用のベストプラクティスを概説するNVIDIA DSX AIファクトリ参照設計にまとめられています。
各世代でワットあたりの計算能力が大幅に向上していますが、完全液体冷却のAIコンピューティングインフラストラクチャにより、データセンターは冷却エネルギー消費を劇的に削減でき、ハイパースケールでのデータセンター全体のエネルギー使用に有意義な違いをもたらします。
「NVIDIAのAIファクトリ向けDSX参照設計は水消費をゼロにしています。大量の電力使用とほぼすべての水使用を排除しました」とNVIDIAのデータセンター冷却・インフラストラクチャディレクターAli Heydari氏は述べています。「ドライクーラーベースの設計では、蒸発式水冷却のない閉ループシステムです。一部の気候では年間約1%の時間だけチラーが必要になるかもしれません。」
歴史的に、冷却だけでデータセンターの電力消費の最大40%を占めており、運用経費とエネルギー需要を削減できる最も重要な分野の1つです。業界の推定によると、チラープラント温度を1度上げるだけで冷却エネルギーコストを約4%削減できます。規模が大きくなると、その節約はすぐに積み上がります。50メガワットのハイパースケール施設では、液体冷却インフラに移行することで、冷却関連のエネルギーと水のコストを年間400万ドル以上節約できます。
気候条件が良好な場合、NVIDIAの45度液体冷却アーキテクチャはドライクーラーによるチラーレス運用を可能にし、従来の冷却塔ベースのシステムで年間メガワットあたり約260万ガロンだった施設冷却水消費をほぼゼロ、つまり最大100%削減します。
理由は次のとおりです。従来の空冷データセンターは、大量の冷却空気に依存してIT機器から熱を除去するため、暑い天候ではエネルギー集約型の冷却インフラが必要になることがよくあります。NVIDIAの45度液体冷却では、熱はチップで直接捕捉され、はるかに高い温度で動作する液体ループを介して輸送されるため、屋外のドライクーラーは年間の大部分で効率的に熱を排出でき、機械的冷却要件と施設の水消費を大幅に削減します。
データセンターの周囲温度は柔軟です。暖かい夏の空気でも問題ありません。サーバー内の何も冷たい空気に依存していないからです。液体がすべての作業を行い、同じ液体が閉ループで再循環されるため、チップを冷却するために新しい水は消費されません。
業界の新標準
NVIDIA Rubinプラットフォームは100%液体冷却インフラを統合しているため、それに向けて構築するすべてのクラウドプロバイダーとデータセンター事業者が移行を行っています。エコシステムも対応しています。Schneider Electricの高度冷却部門Motivairは、NVIDIAの製品ロードマップとほぼ10年にわたり協力してきました。同社の社長兼CEO Richard Whitmore氏は、電力密度が空冷ではもはや実行可能ではない閾値を超えたため、関係はさらに緊密になったと述べています。
「チップあたりのワット数があるレベルを超えると、液体冷却が必須になりました」とWhitmore氏は述べています。
AI冷却は考えられているより熱い
業界には、冷たいデータセンターが効率的であるという長年の誤解があります。数十年前、データセンターがウォークインフリーザーのように感じられなければ、何かが間違っていると思われていました。実際には、チップはその直感が示唆するよりもはるかに高温の環境に耐えることができます。シリコンプロセッサは巨大な内部熱を発生します。完全液体冷却チップに45°Cで入る冷却液は、チップ表面で熱負荷を吸収して約55°Cで出てきます。それでもパフォーマンスは低下しません。
プロセッサは全性能で動作し続けます。なぜなら、液体冷却コールドプレートがデバイス温度を検証済みの動作限界内に維持し、冷却液が45°Cでラックに入っても問題ないからです。
ファンなし、コールドアイルなし——根本的に異なるマシン
従来のデータセンターに入ると、2つのことに気づきます。騒音(冷却ファンは総騒音レベル85デシベル以上に寄与し、耳の保護が必要)と、ホットアイルとコールドアイルの物理的な配置で、冷却空気をコンポーネント全体に押し出すために注意深く管理されています。Rubinアーキテクチャはその状況を変えます。
冷却液(水75%、プロピレングリコール25%)は、プロセッサに直接置かれたコールドプレートを流れ、発生源で熱を奪います。その冷却液を最大45°Cで流すことは、多くの気候では、施設ループが機械的なチラーや騒々しいファンをオンにせずに熱を排出できることを意味します。
AIファクトリでは、冷却液は冷却液分配ユニットからサーバーへと閉ループサイクルで流れます。
これにより、エネルギー節約以上の可能性が開かれます。水消費を完全に排除する可能性です。適切な地理的条件(確実に涼しい屋外空気がある場所)では、液体冷却データセンターは、熱を発生源で直接捕捉し、屋外のドライクーラー(本質的には建物の外側に設置された大型ラジエーターコイル)に輸送する冷却液分配ユニットを介して熱を排出できます。
ループは一度充填され、施設の寿命の間閉じて動作します。また、従来の空冷インフラと比較してAIファクトリ内で劇的に少ないスペースしか取りません。
「適切な地理的位置で、適切なシステム設計を行えば、冷凍機器は一切必要ありません」とWhitmore氏は述べています。「屋外に大きなラジエーターコイルを設置し、冷却のすべてに外気温を利用できます。非常に効率的です。」
地理的な条件は重要です。スコットランド高地のデータセンターとアリゾナ州フェニックスのデータセンターでは、状況が大きく異なります。しかし、温暖な気候でも、45°C冷却液への移行により、事業者はチラーレスの理想に大きく近づきます。チラーは、外気温がそれを要求する年に数日だけ稼働するかもしれません。
AIファクトリのこの新しいモデルのもう1つの重要な利点は、廃熱回収の可能性です。AIファクトリの運用からの残留熱を、近くの商業用または住宅用建物の暖房に再利用できます。
誰も解決していなかった工学的問題
以前の液体冷却サーバーはハイブリッドでした。GPUとCPUにはコールドプレートがありましたが、システムの残りの部分は空冷で、空気中に放熱するように設計されたフィン付きヒートシンクがありました。完全液体冷却サーバーでは、これらのコンポーネントの冷却を液体を使用するように完全に再設計する必要がありました。
NVIDIAの熱エンジニアリングチームは、これらのコンポーネントが熱を処理する方法を再設計し、単一の入口と出口を使用してボード上の複数の高電力チップに液体をルーティングする方法を簡素化する冷却ループを設計し、よりクリーンなトレイレベルの冷却アーキテクチャを実現しました。
目に見える結果の1つは、Rubinサーバーには空冷サーバーのような穴あきベゼルの代わりに、清潔で密閉されたフロントパネルがあることです。もう1つは、完全液体冷却サーバーは空冷サーバーよりも高いラック密度を可能にし、以前は6ラックユニットを占めていたシステムが2つに収まり、より多くの計算、より少ないスペース、より少ないノイズを実現します。
液体冷却インフラのオーバーヘッドパイプは、強力なAIサーバーにルーティングされます。AIワークロードは軽くなっていません。データセンター建設を推進する計算需要は、ほとんどすべての他のカテゴリーのインフラ投資よりも急速に成長しています。その計算を冷却する方法の効率改善がなければ、大規模なAIの実行にかかるエネルギーコストはハードウェアと歩調を合わせて増加するでしょう。最大45°C(ホットタブよりも熱く、地球にとっては涼しい)で動作する液体冷却は、そのギャップを埋めるために業界が持つ最も重要なツールの1つです。
液体冷却、AIファクトリ向けNVIDIA DSXプラットフォーム、およびNVIDIAのエネルギー効率の高いAIインフラストラクチャへのアプローチの詳細をご覧ください。