MemoryLLM:可插拔的可解释前馈记忆Transformer
MemoryLLM通过将前馈模块(FFN)与自注意力解耦,实现了可解释的上下文无关词元级神经检索记忆,提升了计算效率。
理解Transformer组件在大语言模型(LLM)中的运作方式至关重要,因为这是近年来人工智能技术进步的核心。苹果机器学习研究团队在2026年7月发表的一篇论文中,重新审视了前馈模块(FFN)可解释性面临的挑战,并提出了MemoryLLM。MemoryLLM旨在将FFN与自注意力机制解耦,使得解耦后的FFN能够作为上下文无关的词元级神经检索记忆进行独立研究。
具体而言,研究人员深入探究了输入词元如何访问FFN参数中的记忆位置,以及FFN记忆在不同下游任务中的重要性。传统的FFN通过输入词元嵌入与自注意力机制共同训练,因此其行为依赖于上下文。MemoryLLM通过直接使用词元嵌入将FFN与自注意力隔离训练,成功实现了上下文无关的FFN。这种设计的关键优势在于,FFN可以预先计算为词元级查找表(ToLs),从而支持按需在显存与存储之间迁移。这一特性显著提升了推理效率,特别是在处理大规模模型时,能够减少显存占用并加速计算。
为了弥补因使用上下文无关词元级嵌入训练FFN而导致的性能差距,研究团队还引入了Flex-MemoryLLM架构,它定位在传统Transformer设计与完全解耦的MemoryLLM之间。Flex-MemoryLLM通过部分保留上下文信息,在保持可解释性的同时,接近传统Transformer的性能水平。
此外,MemoryLLM支持即插即用的部署方式,这意味着预计算的ToLs可以方便地集成到现有模型中,而无需重新训练整个模型。这种灵活性使得MemoryLLM特别适用于需要快速迭代和部署的场景,如边缘计算或实时应用。同时,由于FFN以查找表形式存在,模型的可解释性也得到了显著提升——研究人员可以直观地查看每个词元对应的FFN输出,从而理解模型如何利用记忆进行推理。
在实验中,MemoryLLM在多个自然语言处理基准任务上展示了与标准Transformer相当的性能,同时推理速度提升了数倍。Flex-MemoryLLM进一步缩小了与全上下文模型的差距,在某些任务上甚至超越了传统方法。这些结果表明,将FFN作为独立记忆模块的设想是可行的,并且有可能开辟新的研究方向。
MemoryLLM的设计灵感来源于对FFN参数的深入分析。研究发现,FFN参数中存储了大量的“记忆”信息,这些信息以词元级方式组织。通过将FFN与自注意力解耦,MemoryLLM使得这些记忆可以被显式地检索和使用。这种机制类似于外部存储,但完全集成在Transformer内部,无需额外的硬件或复杂性。此外,ToLs的预计算特性意味着模型在推理时只需要一次表查找操作,而不是计算完整的FFN前向传播,从而大幅减少了计算量。
该论文由Ajay Jaiswal、Lauren Hannah、Han-Byul Kim、Duc Hoang、Arnav Kundu、Mehrdad Farajtabar和Minsik Cho共同撰写。MemoryLLM的提出为理解FFN的角色提供了新的视角,并可能对未来的模型设计和推理效率优化产生重要影响。它展示了如何通过架构创新,在不牺牲性能的前提下,提高模型的可解释性和计算效率。