比熱水浴缸還熱:45°C突破為AI最大機器降溫
輝達最新Rubin AI伺服器採用100%液體冷卻,冷卻液溫度高達45°C,比熱水浴缸還熱。這種設計顯著提高能效,減少冷卻能耗和水消耗。在適宜氣候下,可實現無冷水機組執行,幾乎完全消除水消耗。傳統資料中心冷卻耗電高達40%,而液體冷卻可大幅節省成本。
熱水浴缸的溫度通常在38到40攝氏度之間,大多數人只能泡約15分鐘。而輝達最新的AI伺服器使用的冷卻液溫度更高——高達45攝氏度(113華氏度)。這個更高的溫度限制正是它們更節能的關鍵所在。
輝達Rubin代AI基礎設施是全球首個實現100%液體冷卻的系統——每一顆晶片、每一個網路元件都由液體在封閉迴路中完全冷卻,系統中沒有任何風扇。這種液體冷卻方法在輝達DSX AI工廠參考設計中進行了概述,該指南提供了設計、建造和運營整個AI工廠基礎設施棧的最佳實踐。
儘管每一代產品每瓦特提供的計算能力都顯著增加,但全液體冷卻的AI計算基礎設施使資料中心能夠大幅降低冷卻能耗——這對超大規模資料中心的整體能源使用產生了有意義的影響。
“輝達針對AI工廠的DSX參考設計實現了零水消耗——我們消除了大量的電力使用和幾乎所有的水使用,”輝達資料中心冷卻和基礎設施總監Ali Heydari說。“基於乾式冷卻器的設計是一個閉環系統,沒有蒸發式水冷卻——除了在某些氣候條件下每年大約1%的時間可能需要冷水機組。”
從歷史上看,僅冷卻就佔了資料中心電力消耗的40%,使其成為效率改進可以顯著降低運營費用和能源需求的最重要領域之一。行業估計表明,將冷水機組溫度提高1度可以降低約4%的冷卻能源成本。在規模上,這些節省很快累積起來。一個50兆瓦的超大規模設施透過轉向液體冷卻基礎設施,每年可以在冷卻相關的能源和水成本上節省超過400萬美元。
在有利的氣候條件下,輝達的45度液體冷卻架構可以利用乾式冷卻器實現無冷水機組執行,將設施冷卻水消耗從傳統冷卻塔系統的大約每年每兆瓦260萬加侖減少到接近零——水使用量減少高達100%。
原因是:傳統的空氣冷卻資料中心依賴大量的冷卻空氣來移除IT裝置的熱量,在炎熱天氣通常需要高能耗的冷卻基礎設施。而輝達的45度液體冷卻,熱量直接在晶片處捕獲,並透過在更高溫度下執行的液體迴路傳輸,使得室外乾式冷卻器在一年中的大部分時間都能高效地排熱,同時顯著減少機械冷卻需求和設施水消耗。
資料中心的室溫很靈活——溫暖的夏季空氣也沒問題,因為伺服器內部沒有任何東西依賴冷空氣。液體完成了所有工作——而且相同的液體可以在閉環中再迴圈,因此不會消耗新的水來冷卻晶片。
行業新標準
由於輝達Rubin平臺整合了100%液體冷卻基礎設施,每一個為其構建的雲提供商和資料中心運營商都在進行轉型。生態系統也在跟上步伐。Schneider Electric的高階冷卻部門Motivair與輝達的產品路線圖合作了近十年——其總裁兼執行長Richard Whitmore表示,當功率密度超過空氣冷卻不再可行的門檻時,這種關係變得更加緊密。
“一旦每顆晶片的瓦數超過一定水平,液體冷卻就變成了強制性的,”Whitmore說。
過熱的AI冷卻比你想象的更熱
業界長期存在一種誤解,認為冷的資料中心才是高效的。幾十年前,如果資料中心不像是步入式冷凍室,人們會認為出了問題。實際上,晶片可以承受比這種直覺更高的溫度環境。矽處理器會產生巨大的內部熱量——進入完全液體冷卻晶片的冷卻液溫度為45攝氏度,離開時約為55攝氏度,因為它在晶片表面吸收了熱量。但效能並不會下降。
處理器繼續全效能執行,因為液體冷卻冷板將裝置溫度保持在驗證的執行限制內,即使冷卻液以45攝氏度進入機架。
無風扇、無冷通道——根本不同的機器
走進傳統資料中心,你會注意到兩件事:噪音——冷卻風扇使總噪音水平達到或超過85分貝,需要聽力保護;以及熱通道和冷通道的物理佈局,需要精心管理以將冷空氣吹過元件。Rubin架構改變了這一狀況。
冷卻液——75%的水和25%的丙二醇——流過直接位於處理器上的冷板,在源頭將熱量帶走。將冷卻液執行到45攝氏度意味著在許多氣候條件下,設施迴路可以在不開啟機械冷水機組和嘈雜風扇的情況下排熱。
在AI工廠中,冷卻液從冷卻液分配單元流向伺服器,形成一個閉環迴圈。
這帶來了超越能源節省的可能性:完全消除水消耗。在合適的地理位置——某個有可靠涼爽室外空氣的地方——液體冷卻資料中心可以透過冷卻液分配單元(直接在源頭捕獲熱量並將其傳輸到室外乾式冷卻器,本質上是建築外部的大型散熱器盤管)來排熱。
迴路只需一次填充,並在設施的生命週期內閉環執行。與傳統的空氣冷卻基礎設施相比,它在AI工廠中佔用的空間大大減少。
“在正確的地理位置,採用正確的系統設計,你不需要任何製冷裝置,”Whitmore說。“你只需在室外放置大型散熱器盤管,利用空氣溫度進行所有冷卻。這非常高效。”
地理條件很重要。蘇格蘭高地的一個資料中心和亞利桑那州鳳凰城的一個資料中心面臨截然不同的現實。但即使在溫暖氣候下,向45攝氏度冷卻液的轉變也使運營商更接近無冷水機組的理想狀態——在少數日子裡,當室外空氣溫度需要時,冷水機組可能僅執行幾天。
這種AI工廠新模式的另一個關鍵優勢是廢熱回收的潛力,AI工廠執行的餘熱可以用於附近的商業或住宅建築供暖。
從未解決的工程問題
之前的液體冷卻伺服器是混合型的:GPU和CPU有冷板,但系統的其餘部分仍然是空氣冷卻,帶有翅片散熱器設計為將熱量散發到流動空氣中。在全液體冷卻伺服器中,這些元件的冷卻需要完全重新設計以使用液體。
輝達的熱工程團隊重新設計了這些元件處理熱量的方式,設計了冷卻迴路,簡化了液體如何透過單個入口和出口路由到板上的多個高功率晶片,從而實現了更整潔的托架級冷卻架構。
一個可見的結果是:Rubin伺服器有乾淨、密封的前面板,而空氣冷卻伺服器則有穿孔的擋板。另一個結果是:全液體冷卻伺服器使機架密度高於空氣冷卻伺服器,因此之前佔據六個機架單元的系統現在只佔兩個——更多的計算、更少的空間、更少的噪音。
液體冷卻基礎設施的架空管道通向強大的AI伺服器。AI工作負載並沒有減輕。驅動資料中心建設的計算需求增長速度快於幾乎所有其他基礎設施投資類別。如果沒有冷卻計算的效率改進,大規模執行AI的能源成本將與硬體同步增長。在高達45攝氏度(比熱水浴缸還熱,對地球更涼爽)下執行的液體冷卻,是行業縮小這一差距的最重要工具之一。
瞭解更多關於液體冷卻、輝達AI工廠DSX平臺以及輝達節能AI基礎設施的資訊。