2026-06-10站内改写1 分钟阅读更新: 2026-06-12

定时技巧可将LLM训练能耗降低14%

荷兰特温特大学的研究人员通过在每个GPU内核级别调整时钟频率，在几乎不牺牲速度的情况下，将大语言模型训练能耗降低了14%。

来源IEEE Spectrum AI作者: Dina Genkina

2023年，OpenAI训练GPT-4消耗了约50吉瓦时的电力，相当于5000个美国家庭的年用电量。此后，顶尖大语言模型（LLM）的训练计算资源只增不减，但直接能耗数据难以获取。荷兰特温特大学的研究团队近日提出一种巧妙方法：通过调整GPU计算过程中的时钟频率，可在几乎不牺牲速度的情况下节省高达14%的训练能耗。博士生Jeffrey Spaan在上月的计算前沿会议上展示了这一成果。

该方法基于动态电压频率调整（DVFS）技术。现代GPU拥有核心和内存两个时钟。当核心高负荷运算时，其频率保持高位，但内存时钟可以降低以减少功耗；反之，当核心等待数据时，核心时钟可降至极低。DVFS虽在20世纪90年代就已提出，但此前无法有效应用于LLM训练，因为要么计算速度大幅下降，要么节能效果不佳。

先前尝试仅在每次训练迭代（包括前向传播和反向传播）时调整频率。而Spaan团队将粒度细化到内核级别——GPU工作负载被分解为大量内核（如单个向量乘法）。他们针对每个内核单独调整时钟频率，实现了更优的节能效果。例如，神经网络单层的计算被分为约40个内核，通过逐内核调频，找到了显著节能的方案。

实验使用Nvidia RTX 3080 Ti训练GPT-3-XL（13亿参数）的单层，实现了14%的能耗节省，训练时间仅增加0.6%。不过，这仍是理想结果，因为未计入频率切换时间。实际效果取决于GPU硬件：新型Blackwell GPU切换速度更快，能充分受益于该技术。

Spaan团队正开发一款能自动为特定工作负载实现最优频率调整的工具。他希望这种方法能吸引工业界采纳。“我们优化的是不损失性能的节能，”Spaan说，“在现实世界中，性能才是至高无上的。”