AI News HubLIVE
站内改写1 分钟阅读

长程LLM推理的上下文回收

大型语言模型在短上下文推理中表现出色,但在长对话中因上下文窗口限制和低效令牌使用而性能下降。ContextForge系统通过结构化查询生成、外部记忆检索和受控合成来回收上下文,显著减少令牌开销并保持答案质量。在15轮医疗对话基准测试中,ContextForge提高了连贯性并降低了令牌消耗。

来源arXiv Computational Linguistics作者: Derek Thomas

大型语言模型(LLM)在短文本推理中表现出色,但当对话轮次增加时,由于上下文窗口的限制和低效的令牌使用,其性能会显著下降。为了解决这一问题,研究人员提出了ContextForge系统,一种上下文回收机制,旨在长时程推理任务中保持任务相关信息。

ContextForge的核心在于结合结构化查询生成、外部记忆检索和受控合成。系统通过生成针对性的查询来识别与当前任务相关的历史信息,然后从外部记忆中检索这些信息,最后通过受控合成将其融入当前上下文中。这种方法避免了完整上下文回放的高成本,从而减少了令牌开销,同时保持了答案的质量。

为了验证ContextForge的有效性,研究团队设计了一个包含15轮对话的医疗领域基准测试,测试包括多轮推理、回溯引用和领域切换等复杂场景。与使用相同底层模型的基线代理相比,ContextForge在保持相当响应准确性的同时,展现出了更高的连贯性和更低的令牌消耗。这些结果表明,上下文回收是一种实用的方法,可以在不依赖更大上下文窗口或模型重新训练的情况下,扩展LLM在长时程任务中的能力。

目前,ContextForge的代码和评估工具已在GitHub上公开,供研究社区进一步探索和应用。这一工作为提升LLM在长对话场景中的实用性提供了新的思路。