MEMO:一个模块化框架,通过训练专用记忆模型在不修改LLM参数的情况下整合新知识
新加坡国立大学、MIT和A*STAR的研究人员提出MEMO,这是一种模块化框架,将语料库知识编码到一个可单独训练的记忆模型中,使大型语言模型能够无需重新训练或微调即可吸收新知识。
文章情报
要点
- MEMO将记忆与推理分离,使用专用记忆模型和冻结的执行模型。
- 五步数据合成流水线将文档转化为用于训练记忆模型的反思型问答数据集。
- MEMO在多跳问答基准测试中优于检索基线,并对检索噪声具有鲁棒性。
- 通过模型合并支持持续知识整合,计算成本最多降低5.5倍。
为什么重要
这条新闻值得关注,因为MEMO将记忆与推理分离,使用专用记忆模型和冻结的执行模型。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
大型语言模型(LLM)在预训练后知识便固定不变,无法随世界变化而更新。完全重新训练整个LLM成本过高,微调又可能破坏已有知识,而检索增强生成(RAG)在处理需要跨文档推理的问题时表现不佳。针对这些挑战,来自新加坡国立大学、MIT CSAIL、A*STAR以及新加坡-MIT联合研究与技术联盟(SMART)的研究团队提出了MEMO(Memory as a Model)框架。
MEMO的核心思想是将记忆与推理分离。它包含两个独立的模型:一个专门的记忆模型(MEMORY model)和一个执行模型(EXECUTIVE model)。记忆模型是一个小型专用语言模型,通过训练将目标语料库的知识内化到其参数中;执行模型则是主LLM,保持冻结状态,仅通过标准输入输出接口进行查询。在实验中,记忆模型采用Qwen2.5-14B-Instruct,执行模型为Qwen2.5-32B-Instruct或Gemini-3-Flash。由于MEMO将执行模型视为黑盒,因此无需访问其权重或输出logits,这使其兼容闭源模型。
记忆模型的训练始于一个五步数据合成流水线。该流水线由生成器模型(实验中为Qwen2.5-32B-Instruct)驱动,将原始文档语料转化为反思型问答数据集:事实提取(并行抽取显式和隐式事实)、合并(将共享上下文的问答对合并为多事实对)、验证与重写(检查自包含性,修正或丢弃不完整的对)、实体显化(生成涉及实体属性和关系的问答对,以应对“反转诅咒”),以及跨文档合成(构建跨越多个文档的问答对)。其中跨文档合成最为关键,消融实验显示移除该步骤会使NarrativeQA上的准确率从24.00%降至6.37%。记忆模型随后通过监督微调(SFT)训练,损失仅计算答案token,推理时不提供源文档。
在推理阶段,执行模型通过一个结构化的多轮协议查询记忆模型,分为三个阶段:阶段1为接地,将用户查询分解为原子子问题,记忆模型独立回答;阶段2为实体识别,执行模型根据接地响应发出后续子查询,逐步缩小候选实体范围;阶段3为答案寻求与综合,执行模型基于确认的实体查询支撑事实,并综合所有响应得出最终答案。记忆模型的响应为紧凑的自然语言片段,长度与语料库大小无关,因此检索成本不会随文档数量增长,这与RAG形成对比。
实验在三个基准上进行:BrowseComp-Plus(多跳深度研究)、NarrativeQA(书籍和电影剧本的理解)和MuSiQue(涉及维基百科段落的2-4跳推理)。基线包括BM25、NV-Embed-V2、HippoRAG2和Cartridges。以Gemini-3-Flash为执行模型时,MEMO在NarrativeQA上达到53.58%(HippoRAG2为23.21%),在MuSiQue上达到60.20%(HippoRAG2为57.00%),在BrowseComp-Plus上达到66.67%(HippoRAG2为66.33%)。当执行模型切换为Qwen2.5-32B-Instruct时,MEMO在BrowseComp-Plus和MuSiQue上分别达到54.22%和48.30%;换用Gemini-3-Flash后,三个基准分别提升12.45%、26.73%和11.90%,且记忆模型无需重新训练。
MEMO对检索噪声表现出很强的鲁棒性。当语料库中加入干扰文档时,NV-Embed-V2和HippoRAG2的准确率在BrowseComp-Plus上最多下降6.22%,而MEMO的准确率变化仅为+0.55%,在标准差范围内。此外,研究团队测试了三种不同架构的记忆模型(Qwen2.5-1.5B-Instruct、Gemma3-1B-IT和LFM2.5-1.2B-Instruct),性能基本一致,表明框架对记忆模型的预训练谱系不敏感。
MEMO还通过模型合并支持增量知识更新。当新语料到达时,独立训练一个专门的记忆模型,然后将其任务向量(与基础模型的参数差)与现有记忆模型在参数空间合并。在NarrativeQA上使用TIES合并(ρ=0.3),对于2个语料库,合并节省了33%的计算量(48 GPU小时 vs 72 GPU小时);对于10个语料库,合并的计算量呈线性增长(Θ(K)),而完全重新训练呈二次增长(Θ(K²)),节省达5.5倍(240 vs 1,320 GPU小时)。尽管合并后的模型在准确率上落后于完全重新训练的模型(Qwen2.5-32B-Instruct下差距11.04%,Gemini-3-Flash下差距19.11%),但它仍优于所有检索基线。
MEMO通过将记忆模块化,为LLM的知识更新提供了一种高效、鲁棒且兼容闭源模型的解决方案,在多个基准上展现了显著优势,为未来人工智能系统的持续学习开辟了新路径。