AI News HubLIVE
站内改写1 分钟阅读

本周AI序列 #875:为什么你的语言模型需要小憩

论文《语言模型需要睡眠》提出,大语言模型存在“顺行性遗忘症”,无法在训练后学习新知识,建议引入类似生物睡眠的机制来巩固记忆。

来源TheSequence作者: Jesus Rodriguez

在最新的AI研究中,一篇题为《语言模型需要睡眠》的论文引发了广泛关注。论文作者Behrouz、Hashemi和Mirrokni(来自Google和康奈尔大学)提出了一个发人深省的观点:当前的大语言模型(LLM)在训练结束后便停止了学习,就像一块“聪明的化石”。它们可以凭借训练时获得的知识进行复杂的推理,但一旦涉及训练截止日期之后的事件,便一无所知。论文将这种现象称为“顺行性遗忘症”——模型保留了训练前的所有记忆,也能在上下文中处理即时信息,但无法将新知识转化为长期存储。

为了解决这一问题,研究者借鉴了生物学的睡眠机制。在生物体中,睡眠有助于将短期记忆巩固为长期记忆。论文建议,语言模型也需要类似的“睡眠”阶段,通过回放和重组已有知识,将新信息整合到模型权重中,从而打破当前静态的学习模式。这一想法不仅挑战了传统的训练/测试分割范式,也为持续学习和模型更新提供了新的思路。

尽管该论文仍处于理论阶段,但它指出了AI领域一个被忽视的瓶颈:模型的“清醒”状态或许不足以实现真正的学习。如果这一机制得到验证,未来的AI将能像人类一样,在“睡眠”中消化经验,变得更加强大。