2026-06-10站内改写1 分鐘閱讀更新: 2026-06-12

定時技巧可將LLM訓練能耗降低14%

荷蘭特温特大學的研究人員通過在每個GPU內核級別調整時鐘頻率，在幾乎不犧牲速度的情況下，將大語言模型訓練能耗降低了14%。

來源IEEE Spectrum AI作者: Dina Genkina

2023年，OpenAI訓練GPT-4消耗了約50吉瓦時的電力，相當於5000個美國家庭的年用電量。此後，頂尖大語言模型（LLM）的訓練計算資源只增不減，但直接能耗數據難以獲取。荷蘭特温特大學的研究團隊近日提出一種巧妙方法：通過調整GPU計算過程中的時鐘頻率，可在幾乎不犧牲速度的情況下節省高達14%的訓練能耗。博士生Jeffrey Spaan在上月的計算前沿會議上展示了這一成果。

該方法基於動態電壓頻率調整（DVFS）技術。現代GPU擁有核心和內存兩個時鐘。當核心高負荷運算時，其頻率保持高位，但內存時鐘可以降低以減少功耗；反之，當核心等待數據時，核心時鐘可降至極低。DVFS雖在20世紀90年代就已提出，但此前無法有效應用於LLM訓練，因為要麼計算速度大幅下降，要麼節能效果不佳。

先前嘗試僅在每次訓練迭代（包括前向傳播和反向傳播）時調整頻率。而Spaan團隊將粒度細化到內核級別——GPU工作負載被分解為大量內核（如單個向量乘法）。他們針對每個內核單獨調整時鐘頻率，實現了更優的節能效果。例如，神經網絡單層的計算被分為約40個內核，通過逐內核調頻，找到了顯著節能的方案。

實驗使用Nvidia RTX 3080 Ti訓練GPT-3-XL（13億參數）的單層，實現了14%的能耗節省，訓練時間僅增加0.6%。不過，這仍是理想結果，因為未計入頻率切換時間。實際效果取決於GPU硬件：新型Blackwell GPU切換速度更快，能充分受益於該技術。

Spaan團隊正開發一款能自動為特定工作負載實現最優頻率調整的工具。他希望這種方法能吸引工業界採納。“我們優化的是不損失性能的節能，”Spaan説，“在現實世界中，性能才是至高無上的。”