AI News HubLIVE
站内改写1 分鐘閱讀

LANTERN:用於長上下文LLM對話的分層歸檔與時間情景檢索網絡

本文提出LANTERN,一種輕量級記憶層,通過零LLM調用和低延遲的混合檢索,在對話歷史壓縮後恢復關鍵細節。實驗表明,LANTERN在恢復丟失事實方面優於MemGPT,並且將通用LLM的準確率平均提高8.4個百分點。

來源arXiv Computational Linguistics作者: Rahul Subramani

大型語言模型(LLM)在處理長對話時,由於上下文窗口有限,常常在壓縮歷史記錄時丟棄關鍵細節,導致後續回答出現事實性錯誤。為了解決這一問題,來自研究團隊提出了一種名為LANTERN(Layered Archival and Temporal Episodic Retrieval Network)的輕量級記憶層。該網絡通過分層歸檔和時間情景檢索機制,主動保存每一輪對話的完整信息,並在上下文壓縮後通過混合檢索快速恢復相關細節。整個流程無需任何LLM調用,每輪對話僅增加不到25毫秒的延遲,極大地降低了推理成本。

在評估中,團隊使用了94個真實多輪對話數據集,包含1894個經過人工驗證的事實(kappa係數為0.81,表示高度一致)。實驗結果顯示,LANTERN的重排序版本(LANTERN-Rerank)成功恢復了78.3%因壓縮而丟失的可驗證事實,顯著優於對MemGPT的忠實復現(後者恢復率為72.4%)。統計檢驗表明,這一優勢具有高度顯著性(Wilcoxon p<0.0001,95%置信區間[+3.1, +8.6]個百分點,Cohen's d=0.43),並且所需的推理成本遠低於MemGPT。即使不使用重排序器,基礎的LANTERN也能在零LLM調用的情況下達到或超越這一基線(p=0.005),展示了其高效性。

更重要的是,當四種不同架構的生產級LLM(包括GPT系列、Llama等)使用LANTERN恢復的上下文來回答事實性問題時,它們的準確率平均提高了8.4個百分點,且每種模型單獨通過Wilcoxon檢驗(p<0.05)。這表明恢復的上下文不僅質量高,而且在不同模型之間具有通用性,能夠顯著提升對話系統的可靠性。

為了支持可重複性和未來研究,作者還發布了完整的評估框架,包括配對顯著性檢驗、失敗分析、事實類型分層(如實體、關係、事件等)以及壓縮魯棒性分析。LANTERN為長上下文LLM對話提供了一種高效、輕量且無需額外LLM調用的解決方案,有望在智能客服、虛擬助手等場景中廣泛應用。