AI News HubLIVE
站内改写1 分鐘閱讀

定時技巧可將LLM訓練能耗降低14%

荷蘭特温特大學的研究人員通過在每個GPU內核級別調整時鐘頻率,在幾乎不犧牲速度的情況下,將大語言模型訓練能耗降低了14%。

來源IEEE Spectrum AI作者: Dina Genkina

2023年,OpenAI訓練GPT-4消耗了約50吉瓦時的電力,相當於5000個美國家庭的年用電量。此後,頂尖大語言模型(LLM)的訓練計算資源只增不減,但直接能耗數據難以獲取。荷蘭特温特大學的研究團隊近日提出一種巧妙方法:通過調整GPU計算過程中的時鐘頻率,可在幾乎不犧牲速度的情況下節省高達14%的訓練能耗。博士生Jeffrey Spaan在上月的計算前沿會議上展示了這一成果。

該方法基於動態電壓頻率調整(DVFS)技術。現代GPU擁有核心和內存兩個時鐘。當核心高負荷運算時,其頻率保持高位,但內存時鐘可以降低以減少功耗;反之,當核心等待數據時,核心時鐘可降至極低。DVFS雖在20世紀90年代就已提出,但此前無法有效應用於LLM訓練,因為要麼計算速度大幅下降,要麼節能效果不佳。

先前嘗試僅在每次訓練迭代(包括前向傳播和反向傳播)時調整頻率。而Spaan團隊將粒度細化到內核級別——GPU工作負載被分解為大量內核(如單個向量乘法)。他們針對每個內核單獨調整時鐘頻率,實現了更優的節能效果。例如,神經網絡單層的計算被分為約40個內核,通過逐內核調頻,找到了顯著節能的方案。

實驗使用Nvidia RTX 3080 Ti訓練GPT-3-XL(13億參數)的單層,實現了14%的能耗節省,訓練時間僅增加0.6%。不過,這仍是理想結果,因為未計入頻率切換時間。實際效果取決於GPU硬件:新型Blackwell GPU切換速度更快,能充分受益於該技術。

Spaan團隊正開發一款能自動為特定工作負載實現最優頻率調整的工具。他希望這種方法能吸引工業界採納。“我們優化的是不損失性能的節能,”Spaan説,“在現實世界中,性能才是至高無上的。”