2026-05-27 13:24 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

MEMO：一个模块化框架，通过训练专用记忆模型在不修改LLM参数的情况下整合新知识

新加坡国立大学、MIT和A*STAR的研究人员提出MEMO，这是一种模块化框架，将语料库知识编码到一个可单独训练的记忆模型中，使大型语言模型能够无需重新训练或微调即可吸收新知识。

来源MarkTechPost作者: Asif Razzaq

大型语言模型（LLM）在预训练后知识便固定不变，无法随世界变化而更新。完全重新训练整个LLM成本过高，微调又可能破坏已有知识，而检索增强生成（RAG）在处理需要跨文档推理的问题时表现不佳。针对这些挑战，来自新加坡国立大学、MIT CSAIL、A*STAR以及新加坡-MIT联合研究与技术联盟（SMART）的研究团队提出了MEMO（Memory as a Model）框架。

MEMO的核心思想是将记忆与推理分离。它包含两个独立的模型：一个专门的记忆模型（MEMORY model）和一个执行模型（EXECUTIVE model）。记忆模型是一个小型专用语言模型，通过训练将目标语料库的知识内化到其参数中；执行模型则是主LLM，保持冻结状态，仅通过标准输入输出接口进行查询。在实验中，记忆模型采用Qwen2.5-14B-Instruct，执行模型为Qwen2.5-32B-Instruct或Gemini-3-Flash。由于MEMO将执行模型视为黑盒，因此无需访问其权重或输出logits，这使其兼容闭源模型。

记忆模型的训练始于一个五步数据合成流水线。该流水线由生成器模型（实验中为Qwen2.5-32B-Instruct）驱动，将原始文档语料转化为反思型问答数据集：事实提取（并行抽取显式和隐式事实）、合并（将共享上下文的问答对合并为多事实对）、验证与重写（检查自包含性，修正或丢弃不完整的对）、实体显化（生成涉及实体属性和关系的问答对，以应对“反转诅咒”），以及跨文档合成（构建跨越多个文档的问答对）。其中跨文档合成最为关键，消融实验显示移除该步骤会使NarrativeQA上的准确率从24.00%降至6.37%。记忆模型随后通过监督微调（SFT）训练，损失仅计算答案token，推理时不提供源文档。

在推理阶段，执行模型通过一个结构化的多轮协议查询记忆模型，分为三个阶段：阶段1为接地，将用户查询分解为原子子问题，记忆模型独立回答；阶段2为实体识别，执行模型根据接地响应发出后续子查询，逐步缩小候选实体范围；阶段3为答案寻求与综合，执行模型基于确认的实体查询支撑事实，并综合所有响应得出最终答案。记忆模型的响应为紧凑的自然语言片段，长度与语料库大小无关，因此检索成本不会随文档数量增长，这与RAG形成对比。

实验在三个基准上进行：BrowseComp-Plus（多跳深度研究）、NarrativeQA（书籍和电影剧本的理解）和MuSiQue（涉及维基百科段落的2-4跳推理）。基线包括BM25、NV-Embed-V2、HippoRAG2和Cartridges。以Gemini-3-Flash为执行模型时，MEMO在NarrativeQA上达到53.58%（HippoRAG2为23.21%），在MuSiQue上达到60.20%（HippoRAG2为57.00%），在BrowseComp-Plus上达到66.67%（HippoRAG2为66.33%）。当执行模型切换为Qwen2.5-32B-Instruct时，MEMO在BrowseComp-Plus和MuSiQue上分别达到54.22%和48.30%；换用Gemini-3-Flash后，三个基准分别提升12.45%、26.73%和11.90%，且记忆模型无需重新训练。

MEMO对检索噪声表现出很强的鲁棒性。当语料库中加入干扰文档时，NV-Embed-V2和HippoRAG2的准确率在BrowseComp-Plus上最多下降6.22%，而MEMO的准确率变化仅为+0.55%，在标准差范围内。此外，研究团队测试了三种不同架构的记忆模型（Qwen2.5-1.5B-Instruct、Gemma3-1B-IT和LFM2.5-1.2B-Instruct），性能基本一致，表明框架对记忆模型的预训练谱系不敏感。

MEMO还通过模型合并支持增量知识更新。当新语料到达时，独立训练一个专门的记忆模型，然后将其任务向量（与基础模型的参数差）与现有记忆模型在参数空间合并。在NarrativeQA上使用TIES合并（ρ=0.3），对于2个语料库，合并节省了33%的计算量（48 GPU小时 vs 72 GPU小时）；对于10个语料库，合并的计算量呈线性增长（Θ(K)），而完全重新训练呈二次增长（Θ(K²)），节省达5.5倍（240 vs 1,320 GPU小时）。尽管合并后的模型在准确率上落后于完全重新训练的模型（Qwen2.5-32B-Instruct下差距11.04%，Gemini-3-Flash下差距19.11%），但它仍优于所有检索基线。

MEMO通过将记忆模块化，为LLM的知识更新提供了一种高效、鲁棒且兼容闭源模型的解决方案，在多个基准上展现了显著优势，为未来人工智能系统的持续学习开辟了新路径。