2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:04 UTC+8

Supersede：诊断和训练LLM智能体中的记忆更新差距

大型语言模型（LLM）智能体在长期多会话交互中需要更新事实，但现有记忆系统存在显著缺陷。研究发现，即使是最先进的模型（如gpt-5.4），在替换为有界自维护记忆后，准确率从92%下降到77%。这种差距并非由模型规模或记忆容量引起，而是随对话长度增加而恶化。研究者发布了Supersede，一个基于强化学习的开源训练环境，通过奖励当前事实和惩罚过时事实来训练智能体。对Qwen2.5-3B模型进行GRPO微调，使真实对话中的更新准确率从9.0%提升至16.7%。

来源arXiv Computational Linguistics作者: Vedant Patel

大型语言模型（LLM）智能体在长期、多会话交互中需要处理不断变化的事实，例如用户搬家、价格更新或计划修改。正确的行为要求使用事实的当前值并丢弃已被取代的值。然而，现有记忆系统在这一能力上存在显著缺陷。

在一项新研究中，研究者通过真实对话数据隔离了这一能力，并证明其是一个独立且未解决的失败模式。在LongMemEval数据集的知识更新子集上，将智能体的完整上下文替换为有界自维护记忆后，即使是最前沿的模型（如gpt-5.4）的准确率也从92%骤降至77%。该差距具有统计显著性（配对McNemar检验p<0.005），并且随着模型规模扩大而持续存在，而全上下文准确率则稳定在92%附近。这表明瓶颈在于记忆维护而非理解能力，并且无法通过更强的模型来弥补。

研究者进一步探讨了该问题是否仅仅由记忆容量不足引起，结果是否定的。当对话长度增加24倍时，准确率从68%进一步下降至28%。即使为智能体提供比例更大的记忆，也未观察到任何恢复（28%对28%，n=25）。失败与对话长度相关，而非压缩比。

为了应对这一挑战，研究者发布了Supersede——一个基于verifiers/prime-rl栈的开放式强化学习环境。该环境将测量结果转化为训练信号：智能体根据当前值回答问题获得奖励，而使用过时值则受到惩罚。研究最终闭环验证了该差距是可训练的：通过在Supersede环境中对小型开放模型Qwen2.5-3B进行GRPO微调，其在真实未见对话中的保持更新准确率几乎翻倍（从9.0%提升至16.7%，单次运行）。单调的检查点曲线表明，所习得的策略而非训练框架带来了增益。

据研究者所知，这是首个以时间事实货币化为奖励目标的训练环境，也是首次证明更新差距不仅可以被测量，还能被训练缩小。