发展方法揭示神经语言模型的统计学习:Transformer从最抽象的统计模式中泛化
本研究采用发展方法探究神经语言模型(NLM)的统计学习和心理表征。通过训练一系列生成式Transformer模型于合成语法,并保存训练过程中多个阶段的模型状态,分析内部表征的变化,发现NLM在学习初期获取最抽象的全局统计知识,随后学习相对局部的统计依赖。这一学习路径包含许多早期过度泛化,这些泛化在后期逐渐受到约束。基于此观察,提出解释NLM统计学习和语言认知的新框架。
神经语言模型(NLM)如GPT系列在自然语言处理领域取得了巨大成功,但其内部工作原理仍是一个未解之谜。最近,一篇发表于arXiv的论文(编号2606.27460)采用了一种新颖的“发展方法”来探究NLM的统计学习机制。该方法借鉴了发展心理学中的思路,通过追踪模型在训练过程中不同阶段的表现,揭示了Transformer如何逐步习得语言中的统计模式。
研究者训练了一系列生成式Transformer模型,这些模型使用合成语法进行训练。合成语法是一种受控的语言环境,可以精确地定义统计规律,从而便于分析模型学到什么。在训练过程中,他们定期保存模型的内部状态(即参数和表征)。通过分析这些状态的变化,他们发现了一个有趣的学习顺序:在训练的最初阶段,模型迅速捕捉到最抽象的全局统计知识,例如句子结构中最宽泛的模式。随后,模型才逐渐学习到更具体的局部统计依赖,如词与词之间的邻近关系。
这一发现挑战了传统观点,后者往往认为模型是从简单到复杂逐步学习的。实际上,变压器模型似乎从一开始就倾向于过度泛化,即对语言规律做出过于宽泛的假设。例如,在早期,模型可能认为所有句子都遵循某种非常一般的模板,而忽略了细节。随着训练的进行,这些过度泛化逐渐被修正,模型变得更精细,能够处理局部的特殊性。
论文作者指出,这种学习路径类似于人类儿童的语言习得过程:儿童早期会犯很多语法错误,然后逐渐学会正确的约束。基于这一观察,他们提出了一个解释NLM统计学习和语言认知的新框架。该框架强调两个关键阶段:第一阶段是抽象全局规则的快速提取,第二阶段是局部依赖的精细化和约束。这项研究不仅加深了我们对NLM内部机制的理解,还可能为改进模型训练策略提供启示。
该论文被接收为跨学科统计学习进展会议(Interdisciplinary Advances in Statistical Learning)的口头报告,展示了其跨学科的影响力。作者包括Wang Bojun等三人,论文可在arXiv上获取。