AI News HubLIVE
站内改写1 分钟阅读

LANTERN:用于长上下文LLM对话的分层归档与时间情景检索网络

本文提出LANTERN,一种轻量级记忆层,通过零LLM调用和低延迟的混合检索,在对话历史压缩后恢复关键细节。实验表明,LANTERN在恢复丢失事实方面优于MemGPT,并且将通用LLM的准确率平均提高8.4个百分点。

来源arXiv Computational Linguistics作者: Rahul Subramani

大型语言模型(LLM)在处理长对话时,由于上下文窗口有限,常常在压缩历史记录时丢弃关键细节,导致后续回答出现事实性错误。为了解决这一问题,来自研究团队提出了一种名为LANTERN(Layered Archival and Temporal Episodic Retrieval Network)的轻量级记忆层。该网络通过分层归档和时间情景检索机制,主动保存每一轮对话的完整信息,并在上下文压缩后通过混合检索快速恢复相关细节。整个流程无需任何LLM调用,每轮对话仅增加不到25毫秒的延迟,极大地降低了推理成本。

在评估中,团队使用了94个真实多轮对话数据集,包含1894个经过人工验证的事实(kappa系数为0.81,表示高度一致)。实验结果显示,LANTERN的重排序版本(LANTERN-Rerank)成功恢复了78.3%因压缩而丢失的可验证事实,显著优于对MemGPT的忠实复现(后者恢复率为72.4%)。统计检验表明,这一优势具有高度显著性(Wilcoxon p<0.0001,95%置信区间[+3.1, +8.6]个百分点,Cohen's d=0.43),并且所需的推理成本远低于MemGPT。即使不使用重排序器,基础的LANTERN也能在零LLM调用的情况下达到或超越这一基线(p=0.005),展示了其高效性。

更重要的是,当四种不同架构的生产级LLM(包括GPT系列、Llama等)使用LANTERN恢复的上下文来回答事实性问题时,它们的准确率平均提高了8.4个百分点,且每种模型单独通过Wilcoxon检验(p<0.05)。这表明恢复的上下文不仅质量高,而且在不同模型之间具有通用性,能够显著提升对话系统的可靠性。

为了支持可重复性和未来研究,作者还发布了完整的评估框架,包括配对显著性检验、失败分析、事实类型分层(如实体、关系、事件等)以及压缩鲁棒性分析。LANTERN为长上下文LLM对话提供了一种高效、轻量且无需额外LLM调用的解决方案,有望在智能客服、虚拟助手等场景中广泛应用。