2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:04 UTC+8

发展方法揭示神经语言模型的统计学习：Transformer从最抽象的统计模式中泛化

本研究采用发展方法探究神经语言模型（NLM）的统计学习和心理表征。通过训练一系列生成式Transformer模型于合成语法，并保存训练过程中多个阶段的模型状态，分析内部表征的变化，发现NLM在学习初期获取最抽象的全局统计知识，随后学习相对局部的统计依赖。这一学习路径包含许多早期过度泛化，这些泛化在后期逐渐受到约束。基于此观察，提出解释NLM统计学习和语言认知的新框架。

来源arXiv Computational Linguistics作者: Wang Bojun, Holly Jenkins, Elizabeth Wonnacott

神经语言模型（NLM）如GPT系列在自然语言处理领域取得了巨大成功，但其内部工作原理仍是一个未解之谜。最近，一篇发表于arXiv的论文（编号2606.27460）采用了一种新颖的“发展方法”来探究NLM的统计学习机制。该方法借鉴了发展心理学中的思路，通过追踪模型在训练过程中不同阶段的表现，揭示了Transformer如何逐步习得语言中的统计模式。

研究者训练了一系列生成式Transformer模型，这些模型使用合成语法进行训练。合成语法是一种受控的语言环境，可以精确地定义统计规律，从而便于分析模型学到什么。在训练过程中，他们定期保存模型的内部状态（即参数和表征）。通过分析这些状态的变化，他们发现了一个有趣的学习顺序：在训练的最初阶段，模型迅速捕捉到最抽象的全局统计知识，例如句子结构中最宽泛的模式。随后，模型才逐渐学习到更具体的局部统计依赖，如词与词之间的邻近关系。

这一发现挑战了传统观点，后者往往认为模型是从简单到复杂逐步学习的。实际上，变压器模型似乎从一开始就倾向于过度泛化，即对语言规律做出过于宽泛的假设。例如，在早期，模型可能认为所有句子都遵循某种非常一般的模板，而忽略了细节。随着训练的进行，这些过度泛化逐渐被修正，模型变得更精细，能够处理局部的特殊性。

论文作者指出，这种学习路径类似于人类儿童的语言习得过程：儿童早期会犯很多语法错误，然后逐渐学会正确的约束。基于这一观察，他们提出了一个解释NLM统计学习和语言认知的新框架。该框架强调两个关键阶段：第一阶段是抽象全局规则的快速提取，第二阶段是局部依赖的精细化和约束。这项研究不仅加深了我们对NLM内部机制的理解，还可能为改进模型训练策略提供启示。

该论文被接收为跨学科统计学习进展会议（Interdisciplinary Advances in Statistical Learning）的口头报告，展示了其跨学科的影响力。作者包括Wang Bojun等三人，论文可在arXiv上获取。