思考即回忆:推理如何解锁大语言模型中的参数化知识
Google Research 的研究揭示了一个反直觉的现象:即使对于简单的事实性问题,让大语言模型生成推理链也能提高答案的准确性。研究发现两种机制:计算缓冲(生成额外标记用于潜在计算)和事实启动(生成相关事实以帮助召回正确答案)。
Google Research 的研究人员 Zorik Gekhman 和 Jonathan Herzig 在 2026 年 6 月 24 日发表的最新研究中,探讨了一个反直觉的现象:为什么允许大语言模型(LLM)生成推理轨迹(即链式思维,CoT)能帮助它们回忆起简单的事实性知识,即使这些知识并不需要复杂的逐步推理?传统观点认为,链式思维对于多步骤推理任务有效,但对于单跳事实问题似乎没有帮助。然而,研究表明,启用推理后,模型能够成功召回在推理关闭时几乎无法获取的正确答案。
通过一系列受控实验,研究团队揭示了两种互补机制。第一种是“计算缓冲”效应:模型在生成推理标记时,即使这些标记是无意义的(例如重复的“让我想想”),也提供了额外的计算步数(前向传播),从而帮助模型优化内部状态并提取难以获取的事实。但计算缓冲的效果有限,当虚拟文本长度过长时收益递减,且无法完全替代自然推理轨迹。第二种机制是“事实启动”:模型在推理过程中会生成与问题相关的事实,这些事实起到了语义预热的作用。例如,当被问及尼泊尔第十位国王的名字时,模型可能会先列举前九位国王,这种列举激活了相关记忆,从而提高了成功召回正确答案的概率。这一现象类似于人类认知中的“扩散激活”概念。
然而,事实启动机制存在风险:模型生成的中介事实可能是幻觉。研究发现,如果推理轨迹中包含哪怕一个幻觉事实,模型得出正确答案的概率会显著下降。这一发现提供了改进模型可靠性的途径:通过测试时选择策略,从多个推理轨迹中优先选择包含可验证、无幻觉事实的轨迹,可以大幅提高准确率。研究团队强调,推理在大语言模型中的作用远不止任务分解或逻辑推理,它还是暴露模型内部记忆和扩展参数知识边界的基本机制。未来工作可以利用过程奖励来鼓励事实支持的中间步骤,从而训练出更可靠、更少幻觉的模型。