更快估算AI能耗的新方法
MIT和MIT-IBM Watson AI Lab的研究人员开发了快速预测工具EnergAIzer,可在几秒内估算AI工作负载在特定处理器上的功耗,误差仅约8%,帮助数据中心优化能源效率。
随着人工智能的迅速发展,数据中心的能耗已成为亟待解决的问题。据劳伦斯伯克利国家实验室预测,到2028年,美国数据中心将消耗全国总电力的12%。为应对这一挑战,麻省理工学院(MIT)和MIT-IBM Watson人工智能实验室的研究人员开发了一款名为EnergAIzer的快速预测工具,能够在数秒内准确估算特定处理器或AI加速芯片上运行特定AI工作负载的能耗,从而帮助数据中心运营商和算法开发者优化能效。
传统的能耗预测方法需要将工作负载分解为独立的步骤,并逐一对GPU内部每个模块的利用率进行模拟,这使得整个仿真过程耗时数小时甚至数天。而EnergAIzer利用了AI工作负载中常见的重复模式——算法工程师通常会在编程时采用结构化的优化手段,例如将任务合理分配到并行处理核心、以最高效的方式移动数据块——这些优化手段形成了规律的结构,研究者正是利用这些结构来快速估算能耗。
然而,仅依靠模式识别可能会遗漏一些固定成本和随机波动。例如,每次GPU启动程序时会产生固定的设置和配置能耗,每次数据处理操作也会产生额外能耗;此外,硬件波动或数据访问冲突可能导致带宽不能完全利用,从而减慢运算速度并增加能耗。为弥补这些不足,研究团队从实际GPU中收集真实测量数据,生成校正项并应用到模型中,从而在保持快速估算的同时确保了高精度。
在测试中,EnergAIzer基于真实AI工作负载信息,能够以仅约8%的误差估算功耗,这与传统需要数小时的仿真方法相比具有相当的准确性,但速度提升了数千倍。用户只需提供待运行的工作负载信息(如AI模型类型、输入数量和长度),工具即可在几秒内输出能耗估算结果,并且用户还可以调整GPU配置或工作频率,直观地观察设计选择对总功耗的影响。
EnergAIzer不仅适用于现有硬件,还能用于预测未来GPU和新兴设备配置的功耗,只要硬件架构在短期内不发生根本性变化。研究团队计划在未来将该工具扩展至多GPU协作场景,从而为硬件设计师、数据中心运营商和算法开发者提供跨层的快速能耗评估方案。正如论文主要作者、MIT博士后Kyungmi Lee所言:“我们希望通过这款工具,让更多人意识到功耗问题,并主动采取措施减少能源消耗。”该研究成果已在IEEE国际系统与软件性能分析研讨会上发表。