2026-06-15站内改写2 分钟阅读更新: 2026-06-15

提升记忆检索：New Computer如何通过LangSmith实现50%更高召回率

New Computer利用LangSmith改进其AI记忆检索系统，实现了50%更高的召回率和40%更高的精确度，通过追踪回归和调整对话提示来优化性能。

New Computer是Dot的幕后团队，Dot是第一款旨在真正理解用户的个人AI。Dot的长时记忆系统通过观察语言和行为线索，随时间学习用户的偏好。其记忆系统不仅仅进行检索，还不断更新对用户的认知，以提供及时且个性化的帮助，营造出真正理解的感觉。

借助LangSmith，New Computer能够测试和改进其记忆检索系统，相较于之前的动态记忆检索基线实现，召回率提高了50%，精确度提高了40%。

Dot的智能记忆系统简介

New Computer团队构建了首个创新的智能记忆系统。与依赖静态文档集的标准RAG方法不同，智能记忆涉及动态创建或预计算稍后才会被检索的文档。这意味着在记忆创建时就必须结构化信息，以便后续检索，并且随着记忆的积累，确保检索的准确性和高效性。

除了原始内容，Dot的记忆还拥有一组可选的“元字段”，对检索非常有用。这些字段包括状态（如已完成或进行中）以及日期时间字段（如开始或截止日期）。它们可以作为高频查询的额外过滤方法，例如“这周我想完成哪些任务？”或“今天还有什么要完成的？”

使用LangSmith改进记忆检索

由于采用了多种检索方法（语义、关键词、BM25、元字段过滤技术中的一种或多种），New Computer需要一种新方式来快速迭代标注样本数据集。为了在保护用户隐私的同时测试性能，他们通过LLM生成背景故事创建了一组合成用户。在与每个合成用户进行初始对话以填充记忆数据库后，团队开始将查询（合成用户的消息）以及所有可用记忆存储在LangSmith数据集中。

通过使用连接LangSmith的内部工具，New Computer团队为每个查询标注了相关记忆，并定义了精确度、召回率和F1等评估指标，从而能够快速迭代改进智能记忆系统的检索能力。

在这组实验中，他们从一个简单的基线系统开始，使用语义搜索为每个查询检索固定数量的最相关记忆。然后测试其他技术以评估不同查询类型的性能。在某些情况下，相似性搜索或关键词方法（如BM25）效果更好；在其他情况下，这些方法需要先通过元字段进行预过滤才能有效执行。

正如可以想象的那样，并行运行这些多种方法可能导致实验的组合爆炸——因此，在多样化数据集上快速验证不同方法对取得进展至关重要。LangSmith易用的SDK和实验界面使New Computer能够快速高效地运行、评估和检查实验结果。

这些实验使New Computer能够显著改进其记忆系统，与之前的动态记忆检索基线相比，召回率提高了50%，精确度提高了40%。

使用LangSmith调整对话提示

Dot的回应由动态对话提示生成——这意味着除了包含相关记忆外，系统还可能依赖工具使用（如搜索结果）和高度上下文化的行为指令，以准确自然的方式回应。

开发这样一个高度可变的系统可能具有挑战性，因为改进一个查询的变化可能对其他查询产生不利影响。

为了优化提示，New Computer团队再次使用一组合成用户生成涵盖广泛意图的用户查询。然后，他们能够在LangSmith的实验比较视图中轻松检查提示变化的全局效果，以高度可视化的方式识别由提示变化导致的回归运行。

此外，在输出不准确的失败案例中，团队可以直接在LangSmith UI中使用内置的提示游乐场调整提示，而无需离开界面。这大大提高了团队在评估和调整对话提示时的迭代速度。

New Computer的未来

随着New Computer推动深化人机关系，团队不断寻求让用户感到真正被感知和理解的方法。这包括使Dot能够适应用户的对话或语调偏好，或通过主动向用户发送定制消息，成为完全个性化的助手。

他们最近的发布吸引了新一波用户——其中超过45%的用户在达到免费消息限制后转换为应用的付费层级——这些用户期望Dot随着时间的推移与他们一起成长和发展。New Computer与LangChain团队的合作以及LangSmith的使用，将继续在团队利用新型AI材料模拟与人类用户日益复杂的关系方面发挥关键作用。