提升记忆检索:New Computer如何通过LangSmith实现50%更高召回率
New Computer利用LangSmith改进其AI记忆检索系统,实现了50%更高的召回率和40%更高的精确度,通过追踪回归和调整对话提示来优化性能。
New Computer是Dot的幕后团队,Dot是第一款旨在真正理解用户的个人AI。Dot的长时记忆系统通过观察语言和行为线索,随时间学习用户的偏好。其记忆系统不仅仅进行检索,还不断更新对用户的认知,以提供及时且个性化的帮助,营造出真正理解的感觉。
借助LangSmith,New Computer能够测试和改进其记忆检索系统,相较于之前的动态记忆检索基线实现,召回率提高了50%,精确度提高了40%。
Dot的智能记忆系统简介
New Computer团队构建了首个创新的智能记忆系统。与依赖静态文档集的标准RAG方法不同,智能记忆涉及动态创建或预计算稍后才会被检索的文档。这意味着在记忆创建时就必须结构化信息,以便后续检索,并且随着记忆的积累,确保检索的准确性和高效性。
除了原始内容,Dot的记忆还拥有一组可选的“元字段”,对检索非常有用。这些字段包括状态(如已完成或进行中)以及日期时间字段(如开始或截止日期)。它们可以作为高频查询的额外过滤方法,例如“这周我想完成哪些任务?”或“今天还有什么要完成的?”
使用LangSmith改进记忆检索
由于采用了多种检索方法(语义、关键词、BM25、元字段过滤技术中的一种或多种),New Computer需要一种新方式来快速迭代标注样本数据集。为了在保护用户隐私的同时测试性能,他们通过LLM生成背景故事创建了一组合成用户。在与每个合成用户进行初始对话以填充记忆数据库后,团队开始将查询(合成用户的消息)以及所有可用记忆存储在LangSmith数据集中。
通过使用连接LangSmith的内部工具,New Computer团队为每个查询标注了相关记忆,并定义了精确度、召回率和F1等评估指标,从而能够快速迭代改进智能记忆系统的检索能力。
在这组实验中,他们从一个简单的基线系统开始,使用语义搜索为每个查询检索固定数量的最相关记忆。然后测试其他技术以评估不同查询类型的性能。在某些情况下,相似性搜索或关键词方法(如BM25)效果更好;在其他情况下,这些方法需要先通过元字段进行预过滤才能有效执行。
正如可以想象的那样,并行运行这些多种方法可能导致实验的组合爆炸——因此,在多样化数据集上快速验证不同方法对取得进展至关重要。LangSmith易用的SDK和实验界面使New Computer能够快速高效地运行、评估和检查实验结果。
这些实验使New Computer能够显著改进其记忆系统,与之前的动态记忆检索基线相比,召回率提高了50%,精确度提高了40%。
使用LangSmith调整对话提示
Dot的回应由动态对话提示生成——这意味着除了包含相关记忆外,系统还可能依赖工具使用(如搜索结果)和高度上下文化的行为指令,以准确自然的方式回应。
开发这样一个高度可变的系统可能具有挑战性,因为改进一个查询的变化可能对其他查询产生不利影响。
为了优化提示,New Computer团队再次使用一组合成用户生成涵盖广泛意图的用户查询。然后,他们能够在LangSmith的实验比较视图中轻松检查提示变化的全局效果,以高度可视化的方式识别由提示变化导致的回归运行。
此外,在输出不准确的失败案例中,团队可以直接在LangSmith UI中使用内置的提示游乐场调整提示,而无需离开界面。这大大提高了团队在评估和调整对话提示时的迭代速度。
New Computer的未来
随着New Computer推动深化人机关系,团队不断寻求让用户感到真正被感知和理解的方法。这包括使Dot能够适应用户的对话或语调偏好,或通过主动向用户发送定制消息,成为完全个性化的助手。
他们最近的发布吸引了新一波用户——其中超过45%的用户在达到免费消息限制后转换为应用的付费层级——这些用户期望Dot随着时间的推移与他们一起成长和发展。New Computer与LangChain团队的合作以及LangSmith的使用,将继续在团队利用新型AI材料模拟与人类用户日益复杂的关系方面发挥关键作用。