2026-06-24 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-26 09:46 UTC+8

仔细审视缩放定律

缩放定律是深度学习中最重要的实证发现之一，描述了模型规模、数据集大小和计算量与损失之间的幂律关系。本文回顾了从早期理论到现代实证研究的发展，包括Kaplan等人的经典缩放定律和Chinchilla缩放定律，并讨论了计算最优分配等重要结论。

缩放定律是深度学习中最重要的实证发现之一。其核心观察简单而有力：训练损失L随模型规模N、数据集大小D和计算量C的增加以可预测的幂律形式下降，在对数坐标图上呈现为直线。缩放定律本质上是一个描述计算、损失、模型规模和数据之间关系的框架，关键在于如何在N和D之间最优分配宝贵的计算资源。

这种可预测性使缩放定律在实践中极具价值。常见的工作流程是：在少量小规模运行中拟合缩放定律，然后外推以估计更大模型的Token和计算需求。

早期探索：机器学习损失的预测性 在缩放定律成为主流概念之前，研究者已开始探索泛化误差随规模变化的可预测性。Amari等人（1992）使用贝叶斯方法和退火近似推导了四种学习曲线类型：确定性算法无非噪声数据时误差与D^{-1}成正比；多等效解时误差与D^{-2}成正比；有噪声时与D^{-1/2}成正比；随机算法有噪声时误差为cD^{-1}+E，其中E是不可约损失。所有曲线均遵循幂律：ε ~ cD^α + E。

Hestness等人（2017）最早进行实证研究，在神经机器翻译、图像分类、语言建模和语音识别四个领域观察到重复模式：泛化误差随多种因素呈幂律缩放；模型改进会平移误差曲线但不改变指数；架构改变偏移量E但不改变指数α；幂律斜率是问题域属性而非模型架构特征。

Rosenfeld等人（2020）进一步将误差建模为模型规模N和数据大小D的联合函数，提出L̂(D,N) ≈ A/N^α + B/D^β + E，其中A、B、α、β为标量常数。他们通过在小规模配置上拟合参数模型，成功外推至更大规模。

数据无限区域的缩放定律：Kaplan等人 Kaplan等人（2020）在语言建模社区推广了缩放定律概念。他们发现交叉熵测试损失L分别随模型规模N（不含嵌入层）、数据集大小D和训练计算量C呈幂律关系。关键发现包括：损失与N、D、C各自独立遵循幂律；较大模型样本效率更高；架构细节不如纯粹规模重要；在固定计算预算下，训练非常大的模型并在收敛前停止比训练小模型至收敛更高效。他们给出的联合依赖形式为L̂(N,D) = [(a/N)^{α/β} + b/D]^β，并得出过拟合程度主要取决于比例N^{α/β}/D。Kaplan等人得出计算最优分配为N_opt ∝ C^{0.73}，建议模型规模增长快于数据集。

他们还提供了参数和计算量的估算方法，并推导出每个Token的训练FLOPs约为6N，总训练计算量C≈6ND。

Chinchilla缩放定律 Chinchilla论文（Hoffmann等人，2022）以更谨慎的实验设计重新研究固定计算预算下的最优模型规模和Token数量，得出了与Kaplan等人不同的结论。核心问题是：在FLOPs约束下，如何权衡数据量和模型参数？Chinchilla团队提出了三种方法预测最优分配，均指向更均衡的缩放：模型规模和训练Token应大致等比例增长。他们的最优模型Chinchilla（70B参数，1.4T Token）在大量基准测试中超越更大模型，证明大规模模型此前普遍训练不足。

讨论与结论 缩放定律是深度学习实践的关键工具，但仍有多个开放问题：幂律关系在极端规模下是否持续？什么是“最优”的底层假设？如何将缩放定律扩展至多模态、强化学习等新范式？无论如何，缩放定律为系统化理解深度学习模型的行为提供了坚实基础，并持续影响着大规模AI系统的设计决策。