研究人员查明大型语言模型能够掌握小型模型错失技能的原因
一项新研究解释了为何大型语言模型能学会小型模型无法掌握的技能,指出常见任务会不断覆盖小型模型对稀有任务的学习,而增大模型规模或提高稀有任务在训练数据中的频率可解决这一问题。
一项由Anthropic、斯坦福大学等机构联合开展的新研究揭示了大型语言模型能够学会小型模型无法掌握的技能的根本原因,并提出了一个实用的改进方向:与其无休止地扩大模型规模,不如在训练数据中提高目标任务的频率。
研究团队通过一系列实验发现,小型模型在学习稀有任务时面临一个核心问题——常见任务会不断干扰和覆盖模型对稀有任务的学习。模型中的每个神经元都倾向于分配给训练数据中频繁出现且简单的特征,而稀有且复杂的特征则被忽视。在实验中,只有模型规模足够大时,才能学会仅占训练数据0.25%的稀有任务。
研究者将这一现象解释为“更新即遗忘”循环:小型模型在训练过程中,常见任务的每次更新都会强烈地将模型拉向自身方向,几乎完全抹去模型刚学到的稀有任务信息。当下一个稀有任务样本出现时,模型只能从零开始。相比之下,大型模型在基本掌握常见任务后,对其的更新压力减弱,从而释放出容量来巩固稀有任务的学习。
为了验证这一理论,团队训练了参数范围从400万到40亿的OLMo模型,训练数据量高达2100亿token,并在其中混入了两种人工任务:数字比较和模加法,频率从每批约1000个样本到每10批一个样本不等。结果显示,只有最大的模型(10亿参数)能够学会这些稀有任务,并且展现出“顿悟”现象(grokking),即模型先记忆后突然理解底层规则。
研究进一步发现,记忆是泛化的必要前提。模型需要足够长时间地保留单个观测结果,才能跨批次形成更广泛的模式。因此,与其盲目扩大模型,不如增加目标任务在训练数据中的出现频率,这种方法在小型模型上也能有效锚定特定技能。
这项研究为语言模型的能力涌现提供了新的视角,也表明模型规模并非唯一决定因素。此前MIT团队曾从模型几何角度解释规模定律,而本研究则聚焦于模型在给定数据混合下实际能学到什么。关于能力是否真的在某一规模阈值下突然涌现的争论仍在继续。