定时技巧可将LLM训练能耗降低14%
荷兰特温特大学的研究人员通过在每个GPU内核级别调整时钟频率,在几乎不牺牲速度的情况下,将大语言模型训练能耗降低了14%。
2023年,OpenAI训练GPT-4消耗了约50吉瓦时的电力,相当于5000个美国家庭的年用电量。此后,顶尖大语言模型(LLM)的训练计算资源只增不减,但直接能耗数据难以获取。荷兰特温特大学的研究团队近日提出一种巧妙方法:通过调整GPU计算过程中的时钟频率,可在几乎不牺牲速度的情况下节省高达14%的训练能耗。博士生Jeffrey Spaan在上月的计算前沿会议上展示了这一成果。
该方法基于动态电压频率调整(DVFS)技术。现代GPU拥有核心和内存两个时钟。当核心高负荷运算时,其频率保持高位,但内存时钟可以降低以减少功耗;反之,当核心等待数据时,核心时钟可降至极低。DVFS虽在20世纪90年代就已提出,但此前无法有效应用于LLM训练,因为要么计算速度大幅下降,要么节能效果不佳。
先前尝试仅在每次训练迭代(包括前向传播和反向传播)时调整频率。而Spaan团队将粒度细化到内核级别——GPU工作负载被分解为大量内核(如单个向量乘法)。他们针对每个内核单独调整时钟频率,实现了更优的节能效果。例如,神经网络单层的计算被分为约40个内核,通过逐内核调频,找到了显著节能的方案。
实验使用Nvidia RTX 3080 Ti训练GPT-3-XL(13亿参数)的单层,实现了14%的能耗节省,训练时间仅增加0.6%。不过,这仍是理想结果,因为未计入频率切换时间。实际效果取决于GPU硬件:新型Blackwell GPU切换速度更快,能充分受益于该技术。
Spaan团队正开发一款能自动为特定工作负载实现最优频率调整的工具。他希望这种方法能吸引工业界采纳。“我们优化的是不损失性能的节能,”Spaan说,“在现实世界中,性能才是至高无上的。”