2026-07-02 08:00 UTC+8站内改写2 分钟阅读更新: 2026-07-03 01:34 UTC+8

MemoryLLM：可插拔的可解释前馈记忆Transformer

MemoryLLM通过将前馈模块（FFN）与自注意力解耦，实现了可解释的上下文无关词元级神经检索记忆，提升了计算效率。

理解Transformer组件在大语言模型（LLM）中的运作方式至关重要，因为这是近年来人工智能技术进步的核心。苹果机器学习研究团队在2026年7月发表的一篇论文中，重新审视了前馈模块（FFN）可解释性面临的挑战，并提出了MemoryLLM。MemoryLLM旨在将FFN与自注意力机制解耦，使得解耦后的FFN能够作为上下文无关的词元级神经检索记忆进行独立研究。

具体而言，研究人员深入探究了输入词元如何访问FFN参数中的记忆位置，以及FFN记忆在不同下游任务中的重要性。传统的FFN通过输入词元嵌入与自注意力机制共同训练，因此其行为依赖于上下文。MemoryLLM通过直接使用词元嵌入将FFN与自注意力隔离训练，成功实现了上下文无关的FFN。这种设计的关键优势在于，FFN可以预先计算为词元级查找表（ToLs），从而支持按需在显存与存储之间迁移。这一特性显著提升了推理效率，特别是在处理大规模模型时，能够减少显存占用并加速计算。

为了弥补因使用上下文无关词元级嵌入训练FFN而导致的性能差距，研究团队还引入了Flex-MemoryLLM架构，它定位在传统Transformer设计与完全解耦的MemoryLLM之间。Flex-MemoryLLM通过部分保留上下文信息，在保持可解释性的同时，接近传统Transformer的性能水平。

此外，MemoryLLM支持即插即用的部署方式，这意味着预计算的ToLs可以方便地集成到现有模型中，而无需重新训练整个模型。这种灵活性使得MemoryLLM特别适用于需要快速迭代和部署的场景，如边缘计算或实时应用。同时，由于FFN以查找表形式存在，模型的可解释性也得到了显著提升——研究人员可以直观地查看每个词元对应的FFN输出，从而理解模型如何利用记忆进行推理。

在实验中，MemoryLLM在多个自然语言处理基准任务上展示了与标准Transformer相当的性能，同时推理速度提升了数倍。Flex-MemoryLLM进一步缩小了与全上下文模型的差距，在某些任务上甚至超越了传统方法。这些结果表明，将FFN作为独立记忆模块的设想是可行的，并且有可能开辟新的研究方向。

MemoryLLM的设计灵感来源于对FFN参数的深入分析。研究发现，FFN参数中存储了大量的“记忆”信息，这些信息以词元级方式组织。通过将FFN与自注意力解耦，MemoryLLM使得这些记忆可以被显式地检索和使用。这种机制类似于外部存储，但完全集成在Transformer内部，无需额外的硬件或复杂性。此外，ToLs的预计算特性意味着模型在推理时只需要一次表查找操作，而不是计算完整的FFN前向传播，从而大幅减少了计算量。

该论文由Ajay Jaiswal、Lauren Hannah、Han-Byul Kim、Duc Hoang、Arnav Kundu、Mehrdad Farajtabar和Minsik Cho共同撰写。MemoryLLM的提出为理解FFN的角色提供了新的视角，并可能对未来的模型设计和推理效率优化产生重要影响。它展示了如何通过架构创新，在不牺牲性能的前提下，提高模型的可解释性和计算效率。