仔细审视缩放定律
缩放定律是深度学习中最重要的实证发现之一,描述了模型规模、数据集大小和计算量与损失之间的幂律关系。本文回顾了从早期理论到现代实证研究的发展,包括Kaplan等人的经典缩放定律和Chinchilla缩放定律,并讨论了计算最优分配等重要结论。
缩放定律是深度学习中最重要的实证发现之一。其核心观察简单而有力:训练损失L随模型规模N、数据集大小D和计算量C的增加以可预测的幂律形式下降,在对数坐标图上呈现为直线。缩放定律本质上是一个描述计算、损失、模型规模和数据之间关系的框架,关键在于如何在N和D之间最优分配宝贵的计算资源。
这种可预测性使缩放定律在实践中极具价值。常见的工作流程是:在少量小规模运行中拟合缩放定律,然后外推以估计更大模型的Token和计算需求。
早期探索:机器学习损失的预测性 在缩放定律成为主流概念之前,研究者已开始探索泛化误差随规模变化的可预测性。Amari等人(1992)使用贝叶斯方法和退火近似推导了四种学习曲线类型:确定性算法无非噪声数据时误差与D^{-1}成正比;多等效解时误差与D^{-2}成正比;有噪声时与D^{-1/2}成正比;随机算法有噪声时误差为cD^{-1}+E,其中E是不可约损失。所有曲线均遵循幂律:ε ~ cD^α + E。
Hestness等人(2017)最早进行实证研究,在神经机器翻译、图像分类、语言建模和语音识别四个领域观察到重复模式:泛化误差随多种因素呈幂律缩放;模型改进会平移误差曲线但不改变指数;架构改变偏移量E但不改变指数α;幂律斜率是问题域属性而非模型架构特征。
Rosenfeld等人(2020)进一步将误差建模为模型规模N和数据大小D的联合函数,提出L̂(D,N) ≈ A/N^α + B/D^β + E,其中A、B、α、β为标量常数。他们通过在小规模配置上拟合参数模型,成功外推至更大规模。
数据无限区域的缩放定律:Kaplan等人 Kaplan等人(2020)在语言建模社区推广了缩放定律概念。他们发现交叉熵测试损失L分别随模型规模N(不含嵌入层)、数据集大小D和训练计算量C呈幂律关系。关键发现包括:损失与N、D、C各自独立遵循幂律;较大模型样本效率更高;架构细节不如纯粹规模重要;在固定计算预算下,训练非常大的模型并在收敛前停止比训练小模型至收敛更高效。他们给出的联合依赖形式为L̂(N,D) = [(a/N)^{α/β} + b/D]^β,并得出过拟合程度主要取决于比例N^{α/β}/D。Kaplan等人得出计算最优分配为N_opt ∝ C^{0.73},建议模型规模增长快于数据集。
他们还提供了参数和计算量的估算方法,并推导出每个Token的训练FLOPs约为6N,总训练计算量C≈6ND。
Chinchilla缩放定律 Chinchilla论文(Hoffmann等人,2022)以更谨慎的实验设计重新研究固定计算预算下的最优模型规模和Token数量,得出了与Kaplan等人不同的结论。核心问题是:在FLOPs约束下,如何权衡数据量和模型参数?Chinchilla团队提出了三种方法预测最优分配,均指向更均衡的缩放:模型规模和训练Token应大致等比例增长。他们的最优模型Chinchilla(70B参数,1.4T Token)在大量基准测试中超越更大模型,证明大规模模型此前普遍训练不足。
讨论与结论 缩放定律是深度学习实践的关键工具,但仍有多个开放问题:幂律关系在极端规模下是否持续?什么是“最优”的底层假设?如何将缩放定律扩展至多模态、强化学习等新范式?无论如何,缩放定律为系统化理解深度学习模型的行为提供了坚实基础,并持续影响着大规模AI系统的设计决策。