2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LANTERN：用於長上下文LLM對話的分層歸檔與時間情景檢索網絡

本文提出LANTERN，一種輕量級記憶層，通過零LLM調用和低延遲的混合檢索，在對話歷史壓縮後恢復關鍵細節。實驗表明，LANTERN在恢復丟失事實方面優於MemGPT，並且將通用LLM的準確率平均提高8.4個百分點。

來源arXiv Computational Linguistics作者: Rahul Subramani

大型語言模型（LLM）在處理長對話時，由於上下文窗口有限，常常在壓縮歷史記錄時丟棄關鍵細節，導致後續回答出現事實性錯誤。為了解決這一問題，來自研究團隊提出了一種名為LANTERN（Layered Archival and Temporal Episodic Retrieval Network）的輕量級記憶層。該網絡通過分層歸檔和時間情景檢索機制，主動保存每一輪對話的完整信息，並在上下文壓縮後通過混合檢索快速恢復相關細節。整個流程無需任何LLM調用，每輪對話僅增加不到25毫秒的延遲，極大地降低了推理成本。

在評估中，團隊使用了94個真實多輪對話數據集，包含1894個經過人工驗證的事實（kappa係數為0.81，表示高度一致）。實驗結果顯示，LANTERN的重排序版本（LANTERN-Rerank）成功恢復了78.3%因壓縮而丟失的可驗證事實，顯著優於對MemGPT的忠實復現（後者恢復率為72.4%）。統計檢驗表明，這一優勢具有高度顯著性（Wilcoxon p<0.0001，95%置信區間[+3.1, +8.6]個百分點，Cohen's d=0.43），並且所需的推理成本遠低於MemGPT。即使不使用重排序器，基礎的LANTERN也能在零LLM調用的情況下達到或超越這一基線（p=0.005），展示了其高效性。

更重要的是，當四種不同架構的生產級LLM（包括GPT系列、Llama等）使用LANTERN恢復的上下文來回答事實性問題時，它們的準確率平均提高了8.4個百分點，且每種模型單獨通過Wilcoxon檢驗（p<0.05）。這表明恢復的上下文不僅質量高，而且在不同模型之間具有通用性，能夠顯著提升對話系統的可靠性。

為了支持可重複性和未來研究，作者還發布了完整的評估框架，包括配對顯著性檢驗、失敗分析、事實類型分層（如實體、關係、事件等）以及壓縮魯棒性分析。LANTERN為長上下文LLM對話提供了一種高效、輕量且無需額外LLM調用的解決方案，有望在智能客服、虛擬助手等場景中廣泛應用。