AI News HubLIVE
站内改写

MEMO:一個模組化框架,透過訓練專用記憶模型在不修改LLM引數的情況下整合新知識

新加坡國立大學、MIT和A*STAR的研究人員提出MEMO,這是一種模組化框架,將語料庫知識編碼到一個可單獨訓練的記憶模型中,使大型語言模型能夠無需重新訓練或微調即可吸收新知識。

文章情報

工程師進階

要點

  • MEMO將記憶與推理分離,使用專用記憶模型和凍結的執行模型。
  • 五步資料合成流水線將文件轉化為用於訓練記憶模型的反思型問答資料集。
  • MEMO在多跳問答基準測試中優於檢索基線,並對檢索噪聲具有魯棒性。
  • 透過模型合併支援持續知識整合,計算成本最多降低5.5倍。

為什麼重要

這條新聞值得關注,因為MEMO將記憶與推理分離,使用專用記憶模型和凍結的執行模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

大型語言模型(LLM)在預訓練後知識便固定不變,無法隨世界變化而更新。完全重新訓練整個LLM成本過高,微調又可能破壞已有知識,而檢索增強生成(RAG)在處理需要跨文件推理的問題時表現不佳。針對這些挑戰,來自新加坡國立大學、MIT CSAIL、A*STAR以及新加坡-MIT聯合研究與技術聯盟(SMART)的研究團隊提出了MEMO(Memory as a Model)框架。

MEMO的核心思想是將記憶與推理分離。它包含兩個獨立的模型:一個專門的記憶模型(MEMORY model)和一個執行模型(EXECUTIVE model)。記憶模型是一個小型專用語言模型,透過訓練將目標語料庫的知識內化到其引數中;執行模型則是主LLM,保持凍結狀態,僅透過標準輸入輸出介面進行查詢。在實驗中,記憶模型採用Qwen2.5-14B-Instruct,執行模型為Qwen2.5-32B-Instruct或Gemini-3-Flash。由於MEMO將執行模型視為黑盒,因此無需訪問其權重或輸出logits,這使其相容閉源模型。

記憶模型的訓練始於一個五步資料合成流水線。該流水線由生成器模型(實驗中為Qwen2.5-32B-Instruct)驅動,將原始文件語料轉化為反思型問答資料集:事實提取(並行抽取顯式和隱式事實)、合併(將共享上下文的問答對合併為多事實對)、驗證與重寫(檢查自包含性,修正或丟棄不完整的對)、實體顯化(生成涉及實體屬性和關係的問答對,以應對“反轉詛咒”),以及跨文件合成(構建跨越多個文件的問答對)。其中跨文件合成最為關鍵,消融實驗顯示移除該步驟會使NarrativeQA上的準確率從24.00%降至6.37%。記憶模型隨後透過監督微調(SFT)訓練,損失僅計算答案token,推理時不提供源文件。

在推理階段,執行模型透過一個結構化的多輪協議查詢記憶模型,分為三個階段:階段1為接地,將使用者查詢分解為原子子問題,記憶模型獨立回答;階段2為實體識別,執行模型根據接地響應發出後續子查詢,逐步縮小候選實體範圍;階段3為答案尋求與綜合,執行模型基於確認的實體查詢支撐事實,並綜合所有響應得出最終答案。記憶模型的響應為緊湊的自然語言片段,長度與語料庫大小無關,因此檢索成本不會隨文件數量增長,這與RAG形成對比。

實驗在三個基準上進行:BrowseComp-Plus(多跳深度研究)、NarrativeQA(書籍和電影劇本的理解)和MuSiQue(涉及維基百科段落的2-4跳推理)。基線包括BM25、NV-Embed-V2、HippoRAG2和Cartridges。以Gemini-3-Flash為執行模型時,MEMO在NarrativeQA上達到53.58%(HippoRAG2為23.21%),在MuSiQue上達到60.20%(HippoRAG2為57.00%),在BrowseComp-Plus上達到66.67%(HippoRAG2為66.33%)。當執行模型切換為Qwen2.5-32B-Instruct時,MEMO在BrowseComp-Plus和MuSiQue上分別達到54.22%和48.30%;換用Gemini-3-Flash後,三個基準分別提升12.45%、26.73%和11.90%,且記憶模型無需重新訓練。

MEMO對檢索噪聲表現出很強的魯棒性。當語料庫中加入干擾文件時,NV-Embed-V2和HippoRAG2的準確率在BrowseComp-Plus上最多下降6.22%,而MEMO的準確率變化僅為+0.55%,在標準差範圍內。此外,研究團隊測試了三種不同架構的記憶模型(Qwen2.5-1.5B-Instruct、Gemma3-1B-IT和LFM2.5-1.2B-Instruct),效能基本一致,表明框架對記憶模型的預訓練譜系不敏感。

MEMO還透過模型合併支援增量知識更新。當新語料到達時,獨立訓練一個專門的記憶模型,然後將其任務向量(與基礎模型的引數差)與現有記憶模型在引數空間合併。在NarrativeQA上使用TIES合併(ρ=0.3),對於2個語料庫,合併節省了33%的計算量(48 GPU小時 vs 72 GPU小時);對於10個語料庫,合併的計算量呈線性增長(Θ(K)),而完全重新訓練呈二次增長(Θ(K²)),節省達5.5倍(240 vs 1,320 GPU小時)。儘管合併後的模型在準確率上落後於完全重新訓練的模型(Qwen2.5-32B-Instruct下差距11.04%,Gemini-3-Flash下差距19.11%),但它仍優於所有檢索基線。

MEMO透過將記憶模組化,為LLM的知識更新提供了一種高效、魯棒且相容閉源模型的解決方案,在多個基準上展現了顯著優勢,為未來人工智慧系統的持續學習開闢了新路徑。