2026-07-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 16:00 UTC+8

程序性记忆蒸馏：在线反思实现语言模型自我改进

提出程序性记忆蒸馏（PMD）方法，利用强化学习中跨回合的失败模式、成功策略等信息，构建三层抽象的记忆，并通过记忆条件的自我教师蒸馏到策略中，在多个基准上超越现有方法。

来源arXiv AI作者: Ye Liu, Srijan Bansal, Bo Pang, Yang Li, Zeyu Leo Liu, Yifei Ming, Zixuan Ke, Shafiq Joty, Semih Yavuz

一篇由耶鲁大学等机构的研究人员发表的新论文提出了一种名为程序性记忆蒸馏（PMD）的方法，旨在提升语言模型的自我改进能力。该方法通过在线反思机制，将强化学习过程中产生的跨回合信号转化为可重用的程序性记忆，并蒸馏到模型的策略权重中。

传统的强化学习与可验证奖励（RLVR）以及近年来流行的自蒸馏变体（如SDPO）主要依赖于单个回合的评估来更新策略。然而，这些方法忽略了回合中蕴含的更丰富的程序性信息，例如哪些策略能够持续通过验证、哪些失败模式反复出现，以及哪些行为模式具有重复性。PMD则通过收集这些跨回合信号，构建一个不断演化的程序性记忆库。

PMD的记忆库分为三个抽象层次：原始轨迹、自反思的策略和教训，以及跨问题的高层行为模式。这些记忆全部在线地从模型自身的轨迹中提取。一个记忆条件的自我教师利用积累的经验来监督学生模型在其自身回合上的表现，使得学生模型能够逐步将程序性知识内化到其参数中。其核心设计原则是共同进化：策略生成回合更新记忆，记忆塑造监督进而更新策略。

实验结果显示，在Qwen3-8B和OLMo3-Instruct-7B两个模型上，PMD在SCIKNOWEVAL基准上比SDPO提升3.8-5.5%，在LIVECODEBENCH基准上提升7.9-13.6%。研究还表明，共同进化机制是关键：冻结记忆或策略都会导致性能下降超过10%。这一方法为语言模型的持续自我改进提供了新的思路，有望在需要从经验中持续学习的场景中发挥重要作用。此外，PMD的优势在于其在线性质：无需预先收集数据，模型在自我生成的数据上自我训练，从而实现持续适应。未来的工作可能包括将该方法扩展到多任务学习和跨领域迁移，以及探索不同模型架构下的可迁移性。