2026-06-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-26 16:02 UTC+8

长程LLM推理的上下文回收

大型语言模型在短上下文推理中表现出色，但在长对话中因上下文窗口限制和低效令牌使用而性能下降。ContextForge系统通过结构化查询生成、外部记忆检索和受控合成来回收上下文，显著减少令牌开销并保持答案质量。在15轮医疗对话基准测试中，ContextForge提高了连贯性并降低了令牌消耗。

来源arXiv Computational Linguistics作者: Derek Thomas

大型语言模型（LLM）在短文本推理中表现出色，但当对话轮次增加时，由于上下文窗口的限制和低效的令牌使用，其性能会显著下降。为了解决这一问题，研究人员提出了ContextForge系统，一种上下文回收机制，旨在长时程推理任务中保持任务相关信息。

ContextForge的核心在于结合结构化查询生成、外部记忆检索和受控合成。系统通过生成针对性的查询来识别与当前任务相关的历史信息，然后从外部记忆中检索这些信息，最后通过受控合成将其融入当前上下文中。这种方法避免了完整上下文回放的高成本，从而减少了令牌开销，同时保持了答案的质量。

为了验证ContextForge的有效性，研究团队设计了一个包含15轮对话的医疗领域基准测试，测试包括多轮推理、回溯引用和领域切换等复杂场景。与使用相同底层模型的基线代理相比，ContextForge在保持相当响应准确性的同时，展现出了更高的连贯性和更低的令牌消耗。这些结果表明，上下文回收是一种实用的方法，可以在不依赖更大上下文窗口或模型重新训练的情况下，扩展LLM在长时程任务中的能力。

目前，ContextForge的代码和评估工具已在GitHub上公开，供研究社区进一步探索和应用。这一工作为提升LLM在长对话场景中的实用性提供了新的思路。