AI News HubLIVE
站内改写4 分钟阅读

比热水浴缸还热:45°C突破为AI最大机器降温

英伟达最新Rubin AI服务器采用100%液体冷却,冷却液温度高达45°C,比热水浴缸还热。这种设计显著提高能效,减少冷却能耗和水消耗。在适宜气候下,可实现无冷水机组运行,几乎完全消除水消耗。传统数据中心冷却耗电高达40%,而液体冷却可大幅节省成本。

来源NVIDIA Blog作者: Josh Parker

热水浴缸的温度通常在38到40摄氏度之间,大多数人只能泡约15分钟。而英伟达最新的AI服务器使用的冷却液温度更高——高达45摄氏度(113华氏度)。这个更高的温度限制正是它们更节能的关键所在。

英伟达Rubin代AI基础设施是全球首个实现100%液体冷却的系统——每一颗芯片、每一个网络组件都由液体在封闭回路中完全冷却,系统中没有任何风扇。这种液体冷却方法在英伟达DSX AI工厂参考设计中进行了概述,该指南提供了设计、建造和运营整个AI工厂基础设施栈的最佳实践。

尽管每一代产品每瓦特提供的计算能力都显著增加,但全液体冷却的AI计算基础设施使数据中心能够大幅降低冷却能耗——这对超大规模数据中心的整体能源使用产生了有意义的影响。

“英伟达针对AI工厂的DSX参考设计实现了零水消耗——我们消除了大量的电力使用和几乎所有的水使用,”英伟达数据中心冷却和基础设施总监Ali Heydari说。“基于干式冷却器的设计是一个闭环系统,没有蒸发式水冷却——除了在某些气候条件下每年大约1%的时间可能需要冷水机组。”

从历史上看,仅冷却就占了数据中心电力消耗的40%,使其成为效率改进可以显著降低运营费用和能源需求的最重要领域之一。行业估计表明,将冷水机组温度提高1度可以降低约4%的冷却能源成本。在规模上,这些节省很快累积起来。一个50兆瓦的超大规模设施通过转向液体冷却基础设施,每年可以在冷却相关的能源和水成本上节省超过400万美元。

在有利的气候条件下,英伟达的45度液体冷却架构可以利用干式冷却器实现无冷水机组运行,将设施冷却水消耗从传统冷却塔系统的大约每年每兆瓦260万加仑减少到接近零——水使用量减少高达100%。

原因是:传统的空气冷却数据中心依赖大量的冷却空气来移除IT设备的热量,在炎热天气通常需要高能耗的冷却基础设施。而英伟达的45度液体冷却,热量直接在芯片处捕获,并通过在更高温度下运行的液体回路传输,使得室外干式冷却器在一年中的大部分时间都能高效地排热,同时显著减少机械冷却需求和设施水消耗。

数据中心的室温很灵活——温暖的夏季空气也没问题,因为服务器内部没有任何东西依赖冷空气。液体完成了所有工作——而且相同的液体可以在闭环中再循环,因此不会消耗新的水来冷却芯片。

行业新标准

由于英伟达Rubin平台集成了100%液体冷却基础设施,每一个为其构建的云提供商和数据中心运营商都在进行转型。生态系统也在跟上步伐。Schneider Electric的高级冷却部门Motivair与英伟达的产品路线图合作了近十年——其总裁兼首席执行官Richard Whitmore表示,当功率密度超过空气冷却不再可行的门槛时,这种关系变得更加紧密。

“一旦每颗芯片的瓦数超过一定水平,液体冷却就变成了强制性的,”Whitmore说。

过热的AI冷却比你想象的更热

业界长期存在一种误解,认为冷的数据中心才是高效的。几十年前,如果数据中心不像是步入式冷冻室,人们会认为出了问题。实际上,芯片可以承受比这种直觉更高的温度环境。硅处理器会产生巨大的内部热量——进入完全液体冷却芯片的冷却液温度为45摄氏度,离开时约为55摄氏度,因为它在芯片表面吸收了热量。但性能并不会下降。

处理器继续全性能运行,因为液体冷却冷板将设备温度保持在验证的运行限制内,即使冷却液以45摄氏度进入机架。

无风扇、无冷通道——根本不同的机器

走进传统数据中心,你会注意到两件事:噪音——冷却风扇使总噪音水平达到或超过85分贝,需要听力保护;以及热通道和冷通道的物理布局,需要精心管理以将冷空气吹过组件。Rubin架构改变了这一状况。

冷却液——75%的水和25%的丙二醇——流过直接位于处理器上的冷板,在源头将热量带走。将冷却液运行到45摄氏度意味着在许多气候条件下,设施回路可以在不打开机械冷水机组和嘈杂风扇的情况下排热。

在AI工厂中,冷却液从冷却液分配单元流向服务器,形成一个闭环循环。

这带来了超越能源节省的可能性:完全消除水消耗。在合适的地理位置——某个有可靠凉爽室外空气的地方——液体冷却数据中心可以通过冷却液分配单元(直接在源头捕获热量并将其传输到室外干式冷却器,本质上是建筑外部的大型散热器盘管)来排热。

回路只需一次填充,并在设施的生命周期内闭环运行。与传统的空气冷却基础设施相比,它在AI工厂中占用的空间大大减少。

“在正确的地理位置,采用正确的系统设计,你不需要任何制冷设备,”Whitmore说。“你只需在室外放置大型散热器盘管,利用空气温度进行所有冷却。这非常高效。”

地理条件很重要。苏格兰高地的一个数据中心和亚利桑那州凤凰城的一个数据中心面临截然不同的现实。但即使在温暖气候下,向45摄氏度冷却液的转变也使运营商更接近无冷水机组的理想状态——在少数日子里,当室外空气温度需要时,冷水机组可能仅运行几天。

这种AI工厂新模式的另一个关键优势是废热回收的潜力,AI工厂运行的余热可以用于附近的商业或住宅建筑供暖。

从未解决的工程问题

之前的液体冷却服务器是混合型的:GPU和CPU有冷板,但系统的其余部分仍然是空气冷却,带有翅片散热器设计为将热量散发到流动空气中。在全液体冷却服务器中,这些组件的冷却需要完全重新设计以使用液体。

英伟达的热工程团队重新设计了这些组件处理热量的方式,设计了冷却回路,简化了液体如何通过单个入口和出口路由到板上的多个高功率芯片,从而实现了更整洁的托架级冷却架构。

一个可见的结果是:Rubin服务器有干净、密封的前面板,而空气冷却服务器则有穿孔的挡板。另一个结果是:全液体冷却服务器使机架密度高于空气冷却服务器,因此之前占据六个机架单元的系统现在只占两个——更多的计算、更少的空间、更少的噪音。

液体冷却基础设施的架空管道通向强大的AI服务器。AI工作负载并没有减轻。驱动数据中心建设的计算需求增长速度快于几乎所有其他基础设施投资类别。如果没有冷却计算的效率改进,大规模运行AI的能源成本将与硬件同步增长。在高达45摄氏度(比热水浴缸还热,对地球更凉爽)下运行的液体冷却,是行业缩小这一差距的最重要工具之一。

了解更多关于液体冷却、英伟达AI工厂DSX平台以及英伟达节能AI基础设施的信息。