Supersede:诊断和训练LLM智能体中的记忆更新差距
大型语言模型(LLM)智能体在长期多会话交互中需要更新事实,但现有记忆系统存在显著缺陷。研究发现,即使是最先进的模型(如gpt-5.4),在替换为有界自维护记忆后,准确率从92%下降到77%。这种差距并非由模型规模或记忆容量引起,而是随对话长度增加而恶化。研究者发布了Supersede,一个基于强化学习的开源训练环境,通过奖励当前事实和惩罚过时事实来训练智能体。对Qwen2.5-3B模型进行GRPO微调,使真实对话中的更新准确率从9.0%提升至16.7%。
大型语言模型(LLM)智能体在长期、多会话交互中需要处理不断变化的事实,例如用户搬家、价格更新或计划修改。正确的行为要求使用事实的当前值并丢弃已被取代的值。然而,现有记忆系统在这一能力上存在显著缺陷。
在一项新研究中,研究者通过真实对话数据隔离了这一能力,并证明其是一个独立且未解决的失败模式。在LongMemEval数据集的知识更新子集上,将智能体的完整上下文替换为有界自维护记忆后,即使是最前沿的模型(如gpt-5.4)的准确率也从92%骤降至77%。该差距具有统计显著性(配对McNemar检验p<0.005),并且随着模型规模扩大而持续存在,而全上下文准确率则稳定在92%附近。这表明瓶颈在于记忆维护而非理解能力,并且无法通过更强的模型来弥补。
研究者进一步探讨了该问题是否仅仅由记忆容量不足引起,结果是否定的。当对话长度增加24倍时,准确率从68%进一步下降至28%。即使为智能体提供比例更大的记忆,也未观察到任何恢复(28%对28%,n=25)。失败与对话长度相关,而非压缩比。
为了应对这一挑战,研究者发布了Supersede——一个基于verifiers/prime-rl栈的开放式强化学习环境。该环境将测量结果转化为训练信号:智能体根据当前值回答问题获得奖励,而使用过时值则受到惩罚。研究最终闭环验证了该差距是可训练的:通过在Supersede环境中对小型开放模型Qwen2.5-3B进行GRPO微调,其在真实未见对话中的保持更新准确率几乎翻倍(从9.0%提升至16.7%,单次运行)。单调的检查点曲线表明,所习得的策略而非训练框架带来了增益。
据研究者所知,这是首个以时间事实货币化为奖励目标的训练环境,也是首次证明更新差距不仅可以被测量,还能被训练缩小。