AI News HubLIVE
站內改寫2 分鐘閱讀

更快估算AI能耗的新方法

MIT和MIT-IBM Watson AI Lab的研究人員開發了快速預測工具EnergAIzer,可在幾秒內估算AI工作負載在特定處理器上的功耗,誤差僅約8%,幫助數據中心優化能源效率。

來源AIhub作者: MIT News

隨着人工智能的迅速發展,數據中心的能耗已成為亟待解決的問題。據勞倫斯伯克利國家實驗室預測,到2028年,美國數據中心將消耗全國總電力的12%。為應對這一挑戰,麻省理工學院(MIT)和MIT-IBM Watson人工智能實驗室的研究人員開發了一款名為EnergAIzer的快速預測工具,能夠在數秒內準確估算特定處理器或AI加速芯片上運行特定AI工作負載的能耗,從而幫助數據中心運營商和算法開發者優化能效。

傳統的能耗預測方法需要將工作負載分解為獨立的步驟,並逐一對GPU內部每個模塊的利用率進行模擬,這使得整個仿真過程耗時數小時甚至數天。而EnergAIzer利用了AI工作負載中常見的重複模式——算法工程師通常會在編程時採用結構化的優化手段,例如將任務合理分配到並行處理核心、以最高效的方式移動數據塊——這些優化手段形成了規律的結構,研究者正是利用這些結構來快速估算能耗。

然而,僅依靠模式識別可能會遺漏一些固定成本和隨機波動。例如,每次GPU啓動程序時會產生固定的設置和配置能耗,每次數據處理操作也會產生額外能耗;此外,硬件波動或數據訪問衝突可能導致帶寬不能完全利用,從而減慢運算速度並增加能耗。為彌補這些不足,研究團隊從實際GPU中收集真實測量數據,生成校正項並應用到模型中,從而在保持快速估算的同時確保了高精度。

在測試中,EnergAIzer基於真實AI工作負載信息,能夠以僅約8%的誤差估算功耗,這與傳統需要數小時的仿真方法相比具有相當的準確性,但速度提升了數千倍。用户只需提供待運行的工作負載信息(如AI模型類型、輸入數量和長度),工具即可在幾秒內輸出能耗估算結果,並且用户還可以調整GPU配置或工作頻率,直觀地觀察設計選擇對總功耗的影響。

EnergAIzer不僅適用於現有硬件,還能用於預測未來GPU和新興設備配置的功耗,只要硬件架構在短期內不發生根本性變化。研究團隊計劃在未來將該工具擴展至多GPU協作場景,從而為硬件設計師、數據中心運營商和算法開發者提供跨層的快速能耗評估方案。正如論文主要作者、MIT博士後Kyungmi Lee所言:“我們希望通過這款工具,讓更多人意識到功耗問題,並主動採取措施減少能源消耗。”該研究成果已在IEEE國際系統與軟件性能分析研討會上發表。