2026-07-02 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-03 01:34 UTC+8

MemoryLLM：可插拔的可解釋前饋記憶Transformer

MemoryLLM透過將前饋模組（FFN）與自注意力解耦，實現了可解釋的上下文無關詞元級神經檢索記憶，提升了計算效率。

理解Transformer元件在大語言模型（LLM）中的運作方式至關重要，因為這是近年來人工智慧技術進步的核心。蘋果機器學習研究團隊在2026年7月發表的一篇論文中，重新審視了前饋模組（FFN）可解釋性面臨的挑戰，並提出了MemoryLLM。MemoryLLM旨在將FFN與自注意力機制解耦，使得解耦後的FFN能夠作為上下文無關的詞元級神經檢索記憶進行獨立研究。

具體而言，研究人員深入探究了輸入詞元如何訪問FFN引數中的記憶位置，以及FFN記憶在不同下游任務中的重要性。傳統的FFN透過輸入詞元嵌入與自注意力機制共同訓練，因此其行為依賴於上下文。MemoryLLM透過直接使用詞元嵌入將FFN與自注意力隔離訓練，成功實現了上下文無關的FFN。這種設計的關鍵優勢在於，FFN可以預先計算為詞元級查詢表（ToLs），從而支援按需在視訊記憶體與儲存之間遷移。這一特性顯著提升了推理效率，特別是在處理大規模模型時，能夠減少視訊記憶體佔用並加速計算。

為了彌補因使用上下文無關詞元級嵌入訓練FFN而導致的效能差距，研究團隊還引入了Flex-MemoryLLM架構，它定位在傳統Transformer設計與完全解耦的MemoryLLM之間。Flex-MemoryLLM透過部分保留上下文資訊，在保持可解釋性的同時，接近傳統Transformer的效能水平。

此外，MemoryLLM支援即插即用的部署方式，這意味著預計算的ToLs可以方便地整合到現有模型中，而無需重新訓練整個模型。這種靈活性使得MemoryLLM特別適用於需要快速迭代和部署的場景，如邊緣計算或即時應用。同時，由於FFN以查詢表形式存在，模型的可解釋性也得到了顯著提升——研究人員可以直觀地檢視每個詞元對應的FFN輸出，從而理解模型如何利用記憶進行推理。

在實驗中，MemoryLLM在多個自然語言處理基準任務上展示了與標準Transformer相當的效能，同時推理速度提升了數倍。Flex-MemoryLLM進一步縮小了與全上下文模型的差距，在某些任務上甚至超越了傳統方法。這些結果表明，將FFN作為獨立記憶模組的設想是可行的，並且有可能開闢新的研究方向。

MemoryLLM的設計靈感來源於對FFN引數的深入分析。研究發現，FFN引數中儲存了大量的“記憶”資訊，這些資訊以詞元級方式組織。透過將FFN與自注意力解耦，MemoryLLM使得這些記憶可以被顯式地檢索和使用。這種機制類似於外部儲存，但完全整合在Transformer內部，無需額外的硬體或複雜性。此外，ToLs的預計算特性意味著模型在推理時只需要一次表查詢操作，而不是計算完整的FFN前向傳播，從而大幅減少了計算量。

該論文由Ajay Jaiswal、Lauren Hannah、Han-Byul Kim、Duc Hoang、Arnav Kundu、Mehrdad Farajtabar和Minsik Cho共同撰寫。MemoryLLM的提出為理解FFN的角色提供了新的視角，並可能對未來的模型設計和推理效率最佳化產生重要影響。它展示瞭如何透過架構創新，在不犧牲效能的前提下，提高模型的可解釋性和計算效率。