2026-05-27 13:24 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

MEMO：一個模組化框架，透過訓練專用記憶模型在不修改LLM引數的情況下整合新知識

新加坡國立大學、MIT和A*STAR的研究人員提出MEMO，這是一種模組化框架，將語料庫知識編碼到一個可單獨訓練的記憶模型中，使大型語言模型能夠無需重新訓練或微調即可吸收新知識。

來源MarkTechPost作者: Asif Razzaq

大型語言模型（LLM）在預訓練後知識便固定不變，無法隨世界變化而更新。完全重新訓練整個LLM成本過高，微調又可能破壞已有知識，而檢索增強生成（RAG）在處理需要跨文件推理的問題時表現不佳。針對這些挑戰，來自新加坡國立大學、MIT CSAIL、A*STAR以及新加坡-MIT聯合研究與技術聯盟（SMART）的研究團隊提出了MEMO（Memory as a Model）框架。

MEMO的核心思想是將記憶與推理分離。它包含兩個獨立的模型：一個專門的記憶模型（MEMORY model）和一個執行模型（EXECUTIVE model）。記憶模型是一個小型專用語言模型，透過訓練將目標語料庫的知識內化到其引數中；執行模型則是主LLM，保持凍結狀態，僅透過標準輸入輸出介面進行查詢。在實驗中，記憶模型採用Qwen2.5-14B-Instruct，執行模型為Qwen2.5-32B-Instruct或Gemini-3-Flash。由於MEMO將執行模型視為黑盒，因此無需訪問其權重或輸出logits，這使其相容閉源模型。

記憶模型的訓練始於一個五步資料合成流水線。該流水線由生成器模型（實驗中為Qwen2.5-32B-Instruct）驅動，將原始文件語料轉化為反思型問答資料集：事實提取（並行抽取顯式和隱式事實）、合併（將共享上下文的問答對合併為多事實對）、驗證與重寫（檢查自包含性，修正或丟棄不完整的對）、實體顯化（生成涉及實體屬性和關係的問答對，以應對“反轉詛咒”），以及跨文件合成（構建跨越多個文件的問答對）。其中跨文件合成最為關鍵，消融實驗顯示移除該步驟會使NarrativeQA上的準確率從24.00%降至6.37%。記憶模型隨後透過監督微調（SFT）訓練，損失僅計算答案token，推理時不提供源文件。

在推理階段，執行模型透過一個結構化的多輪協議查詢記憶模型，分為三個階段：階段1為接地，將使用者查詢分解為原子子問題，記憶模型獨立回答；階段2為實體識別，執行模型根據接地響應發出後續子查詢，逐步縮小候選實體範圍；階段3為答案尋求與綜合，執行模型基於確認的實體查詢支撐事實，並綜合所有響應得出最終答案。記憶模型的響應為緊湊的自然語言片段，長度與語料庫大小無關，因此檢索成本不會隨文件數量增長，這與RAG形成對比。

實驗在三個基準上進行：BrowseComp-Plus（多跳深度研究）、NarrativeQA（書籍和電影劇本的理解）和MuSiQue（涉及維基百科段落的2-4跳推理）。基線包括BM25、NV-Embed-V2、HippoRAG2和Cartridges。以Gemini-3-Flash為執行模型時，MEMO在NarrativeQA上達到53.58%（HippoRAG2為23.21%），在MuSiQue上達到60.20%（HippoRAG2為57.00%），在BrowseComp-Plus上達到66.67%（HippoRAG2為66.33%）。當執行模型切換為Qwen2.5-32B-Instruct時，MEMO在BrowseComp-Plus和MuSiQue上分別達到54.22%和48.30%；換用Gemini-3-Flash後，三個基準分別提升12.45%、26.73%和11.90%，且記憶模型無需重新訓練。

MEMO對檢索噪聲表現出很強的魯棒性。當語料庫中加入干擾文件時，NV-Embed-V2和HippoRAG2的準確率在BrowseComp-Plus上最多下降6.22%，而MEMO的準確率變化僅為+0.55%，在標準差範圍內。此外，研究團隊測試了三種不同架構的記憶模型（Qwen2.5-1.5B-Instruct、Gemma3-1B-IT和LFM2.5-1.2B-Instruct），效能基本一致，表明框架對記憶模型的預訓練譜系不敏感。

MEMO還透過模型合併支援增量知識更新。當新語料到達時，獨立訓練一個專門的記憶模型，然後將其任務向量（與基礎模型的引數差）與現有記憶模型在引數空間合併。在NarrativeQA上使用TIES合併（ρ=0.3），對於2個語料庫，合併節省了33%的計算量（48 GPU小時 vs 72 GPU小時）；對於10個語料庫，合併的計算量呈線性增長（Θ(K)），而完全重新訓練呈二次增長（Θ(K²)），節省達5.5倍（240 vs 1,320 GPU小時）。儘管合併後的模型在準確率上落後於完全重新訓練的模型（Qwen2.5-32B-Instruct下差距11.04%，Gemini-3-Flash下差距19.11%），但它仍優於所有檢索基線。

MEMO透過將記憶模組化，為LLM的知識更新提供了一種高效、魯棒且相容閉源模型的解決方案，在多個基準上展現了顯著優勢，為未來人工智慧系統的持續學習開闢了新路徑。