2026-05-30 10:59 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

为AI智能体构建持久化内存的经验教训

mem9的故事始于一次客户请求，从一个快速原型发展成一个完整产品。本文分享了构建智能体内存的关键经验：内存不仅仅是存储问题，而是涉及摄取、排序、评估和产品判断的工程挑战。内存API本身不足以构成产品，用户需要查看、检查、信任和纠正智能体的记忆。此外，评估应成为内存产品的基础设施，以使质量可视化和可调试。最后，智能体内存不应局限于文本，应向多模态发展。

来源Hacker News AI作者: jinqueeny

mem9的故事始于2026年3月一个客户提出的简单问题：让智能体记住事情。我们没有遵循常规的路线图或架构审查，而是直接构建了一个粗糙的原型，并在客户面前展示。一旦人们看到智能体能够记住通常会被遗忘的信息，对话立即从“有趣的能力”转变为“市场需要的产品”。

在最初几天，我们迅速搭建了核心系统：一个Go服务器、内存API、TiDB Cloud作为存储层、搜索、认证、速率限制以及首批插件集成。随后，支持范围迅速扩展到OpenClaw、OpenCode和Claude Code等智能体环境，同时改进了 onboarding，建立了多租户基础，并上线了第一个mem9.ai网站。我们不是按顺序从基础设施到产品再到增长，而是所有轨道同时推进，因为一旦价值显而易见，犹豫比前进更昂贵。

早期我们意识到，智能体内存不能仅仅被视为一个存储特性。许多讨论仍将内存问题框定为“存储加检索”，但这过于肤浅。真正的挑战不在于信息能否被存储，而在于正确的信息是否在正确的时间以正确的量返回。召回太少会遗漏关键细节，召回太多会污染上下文。随着内存增长，如果召回变得嘈杂，信任就会消失。因此，关键在于精度，而非持久化。

这一洞察推动mem9迅速超越基本的内存存储，转向一个更具意见的系统，涉及摄取、提取、协调、排序和检索。我们选择了以服务器为中心的架构，以便集成保持轻量，而内存逻辑可以集中演进。这使我们能够改进核心行为，而不是将复杂性推送到每个插件或运行时中。

下一个教训是：仅有内存API不足以构成产品。人们不仅希望内存存在，还希望看到、检查、信任、纠正并最终塑造它。因此，我们构建了使内存可理解的界面：会话视图、时间线视图、分析工作流、筛选器、预览和洞察层。这些帮助用户理解不仅记住了什么，还理解了为什么重要。这项工作逐渐演变成“你的记忆”，不仅是UI，更是让长期记忆变得具体而非抽象的方式。

在后端，这一转变要求不同的工程方法：分类学、分析质量、去重、响应性和更好的报告工作流。第一阶段证明了内存能够工作，而这一阶段使其变得可理解和可信。同时，我们还构建了所有让产品易于被发现的细节：公共网站、文档、分析、归属、联系流程、更好的 onboarding，以及最终的API文档。这些变化虽然不引人注目，但却是产品增长的关键。

一旦用户开始在实际工作流中依赖内存，直觉便不再足够。我们需要衡量召回质量是否改善或退化。因此，我们将评估视为产品基础设施，构建了评估框架，将较早的多轮对话数据集适配到现代智能体场景，并创建了反馈循环以指导工程决策。基准测试从学术评分变为产品真相的工具，帮助我们超越直觉，进入可迭代的改善循环。

在构建mem9的过程中，我们还发现内存不应完全不可见。用户将内存体验为连续性，而非索引。他们关心系统是否感觉了解他们，是否能随时间连接线索，这种连续性是否可信而非诡异。因此，我们持续投资于可视化，例如Memory Farm——一个像素艺术风格的视觉记忆探索器，记忆如同植物在花园中生长，按主题聚类并通过关系连接。这种设计背后的严肃思考是：当用户能以更直观的形式看到模式、聚类、历史和关系时，内存变得更易理解。

从外部看，智能体内存是一个热门类别，但从内部看，它充满了艰难的边缘案例：大上下文窗口仍然有限，重要事实被近期噪音掩盖，朴素检索带回错误信息，重复浪费token，质量随内存增长而退化。一旦召回开始显得随机，用户信心迅速丧失。mem9从第一天起就构建在这些问题之中，因此产品如此迅速地从原始持久化转向摄取、协调、混合检索、排序、分析、基准测试和编排。

随着构建，我们越来越确信智能体的长期内存应超越纯文本检索。在多模态用例中，内存的含义发生变化：一个有用的内存系统不仅应检索多年前的句子，还应能检索图像、音频片段、交互和周围上下文。这一方向塑造了我们的很多思考，尤其是与drive9（我们新的文件和工件产品）的结合。

mem9从一个快速原型发展成为拥有超过一万用户的产品，仅用了两周多时间。这段旅程更像一个压缩的创业年，而非常规软件项目。我们学到的最重要的东西是：智能体内存不仅关乎存储，更关乎帮助智能体决定什么应该保留、什么应该浮现、什么应该保持安静。这是一个工程、产品与人类信任的交汇点。