如何为编码智能体构建持久性仓库记忆基准测试
Greplica 是一种持久性记忆系统,通过从先前的开发会话中提取相关上下文来提升编码智能体在复杂工程任务上的性能。基于 SWE-chat 数据集的基准测试显示,使用 Greplica 的智能体在成本、令牌数、工具调用和时间上分别降低了 43%、49%、36% 和 26%。
Greplica 是一种为编码智能体设计的持久性记忆系统,旨在解决当前 AI 编程助手在大型代码库中面临的核心问题:每次新会话都需要从头开始探索代码上下文,导致大量时间和令牌浪费。通过自动捕获开发会话中的关键信息——如架构决策、失败尝试、边界情况等——并将其存储在持久化的 SQLite 图结构中,Greplica 让智能体能够在开始新任务时直接检索相关记忆,从而避免重复探索。
为了验证这一方法的效果,研究团队基于 SWE-chat 数据集设计了严格的基准测试。他们选择了 10 个来自真实开源仓库的高上下文任务,每个任务都包含一系列先前的编码会话(用于构建记忆)和一个独立的测试会话(用于评估规划质量)。在构建记忆时,确保不会泄露未来会话的信息。测试分为两组:基线组从零开始,Greplica 组则利用先前会话构建的记忆。
实验结果令人瞩目:在所有 10 个任务中,Greplica 组均表现出色。平均而言,成本降低了 43%(从 12.34 美元降至 7.09 美元),令牌消耗减少了 49%,工具调用次数减少了 36%(从 694 次降至 447 次),耗时减少了 26%(从 59.7 分钟降至 43.9 分钟)。其中,Moltis onboarding provider feedback 任务改进最为显著,成本降低 70%,时间节省 44%,工具调用减少 46%。分析显示,最显著的提升出现在那些依赖先前会话中的子系统上下文的复杂任务中。
Greplica 的优势不仅在于数值上的改进,更在于它提供了一种可扩展的工程记忆层。传统的 AGENTS.md 或仓库级指令文件虽然有一定作用,但需要手动维护,无法针对特定任务进行检索,也无法保留历史决策的完整轨迹。与此不同,Greplica 能够持续自动捕获上下文,并在需要时精确检索。研究团队计划将基准测试扩展到 50 个以上高上下文任务,并探索基于 LLM 的改进检索方法,同时整合 GitHub issues、PR 等其他信息来源。