2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:09 UTC+8

Transformer语言模型中情境建模与心理理论的发展轨迹

本研究采用发展视角，追踪Olmo2和Pythia语言模型在多个训练阶段中心理状态推理行为的模式及前提条件。研究发现，错误信念任务（FBT）的超越随机水平表现依赖于模型规模和足够的训练量，在预训练后期出现，并通过后训练干预（SFT、DPO）得到最大提升。然而，FBT表现脆弱，非事实动词的使用会增加错误信念归因。情境建模能力通常先于并优于FBT，但在某些方面出现不一致性。结果表明，大型训练充分的模型能够发展出部分一致的情境模型，但仍表现出惊人的脆弱性。

来源arXiv Computational Linguistics作者: Pamela D. Rivi\`ere, Cameron Jones, Sean Trott

最近，一项针对大型语言模型（LLM）的研究采用发展心理学视角，系统考察了模型在训练过程中如何逐步获得对他人信念状态进行推理的能力。研究人员以Olmo2和Pythia两个模型系列为对象，在其多个训练检查点（checkpoint）上进行了错误信念任务（FBT）测试。结果显示，模型能否在FBT中取得超越随机水平的成绩，同时取决于模型本身的规模和已经接受的训练数据量。这一能力并非在训练初期出现，而是在预训练阶段相对靠后的时期才逐渐显现。更有意思的是，在最具诊断性的心理理论条件（即隐式错误信念条件）下，通过监督微调（SFT）和直接偏好优化（DPO）等后训练干预，模型的表现能够获得最大幅度的提升。

然而，研究同时揭示了FBT表现的脆弱性。与以往的研究一致，当使用非事实动词如“认为”（thinks）时，即使在真信念条件下，模型也会错误地增加对错误信念的归因。为了将这些发现置于更完整的背景中，研究者还追踪了情境建模能力的发展——即模型正确报告描述场景中基本事实的能力。结果表明，情境建模的准确率通常比FBT准确率出现得更早，并且在其之上。但在某些方面，情境表征也表现出令人惊讶的不连贯性。例如，对于始终知道物品真实位置的反派角色（Antagonist），Olmo2 13b模型在回答关于该角色知识状态的问题时，会持续受到目标角色（Target）知识状态以及非事实动词存在的影响。

综合这些发现，研究者认为，较大且经过充分训练的模型能够按照发展的适当顺序构建部分一致的情境模型，但同时也表现出令人惊讶的脆弱性。这一结果凸显了采用发展路径和压力测试方法来评估LLM能力的重要价值。该论文已被提交至第一届计算发展语言学研讨会（非存档）。