为AI智能体构建持久化内存的经验教训
mem9的故事始于一次客户请求,从一个快速原型发展成一个完整产品。本文分享了构建智能体内存的关键经验:内存不仅仅是存储问题,而是涉及摄取、排序、评估和产品判断的工程挑战。内存API本身不足以构成产品,用户需要查看、检查、信任和纠正智能体的记忆。此外,评估应成为内存产品的基础设施,以使质量可视化和可调试。最后,智能体内存不应局限于文本,应向多模态发展。
文章情报
要点
- mem9起源于客户提出的实际问题,而非市场理论,通过快速原型验证了价值。
- 智能体内存的核心挑战并非持久化,而是在生产约束下精确检索相关信息。
- 仅有内存API远远不够,用户需要可视化和管理记忆的工具。
- 评估与基准测试是内存产品的基础设施,用于衡量和提升召回质量。
为什么重要
这条新闻值得关注,因为mem9起源于客户提出的实际问题,而非市场理论,通过快速原型验证了价值。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
mem9的故事始于2026年3月一个客户提出的简单问题:让智能体记住事情。我们没有遵循常规的路线图或架构审查,而是直接构建了一个粗糙的原型,并在客户面前展示。一旦人们看到智能体能够记住通常会被遗忘的信息,对话立即从“有趣的能力”转变为“市场需要的产品”。
在最初几天,我们迅速搭建了核心系统:一个Go服务器、内存API、TiDB Cloud作为存储层、搜索、认证、速率限制以及首批插件集成。随后,支持范围迅速扩展到OpenClaw、OpenCode和Claude Code等智能体环境,同时改进了 onboarding,建立了多租户基础,并上线了第一个mem9.ai网站。我们不是按顺序从基础设施到产品再到增长,而是所有轨道同时推进,因为一旦价值显而易见,犹豫比前进更昂贵。
早期我们意识到,智能体内存不能仅仅被视为一个存储特性。许多讨论仍将内存问题框定为“存储加检索”,但这过于肤浅。真正的挑战不在于信息能否被存储,而在于正确的信息是否在正确的时间以正确的量返回。召回太少会遗漏关键细节,召回太多会污染上下文。随着内存增长,如果召回变得嘈杂,信任就会消失。因此,关键在于精度,而非持久化。
这一洞察推动mem9迅速超越基本的内存存储,转向一个更具意见的系统,涉及摄取、提取、协调、排序和检索。我们选择了以服务器为中心的架构,以便集成保持轻量,而内存逻辑可以集中演进。这使我们能够改进核心行为,而不是将复杂性推送到每个插件或运行时中。
下一个教训是:仅有内存API不足以构成产品。人们不仅希望内存存在,还希望看到、检查、信任、纠正并最终塑造它。因此,我们构建了使内存可理解的界面:会话视图、时间线视图、分析工作流、筛选器、预览和洞察层。这些帮助用户理解不仅记住了什么,还理解了为什么重要。这项工作逐渐演变成“你的记忆”,不仅是UI,更是让长期记忆变得具体而非抽象的方式。
在后端,这一转变要求不同的工程方法:分类学、分析质量、去重、响应性和更好的报告工作流。第一阶段证明了内存能够工作,而这一阶段使其变得可理解和可信。同时,我们还构建了所有让产品易于被发现的细节:公共网站、文档、分析、归属、联系流程、更好的 onboarding,以及最终的API文档。这些变化虽然不引人注目,但却是产品增长的关键。
一旦用户开始在实际工作流中依赖内存,直觉便不再足够。我们需要衡量召回质量是否改善或退化。因此,我们将评估视为产品基础设施,构建了评估框架,将较早的多轮对话数据集适配到现代智能体场景,并创建了反馈循环以指导工程决策。基准测试从学术评分变为产品真相的工具,帮助我们超越直觉,进入可迭代的改善循环。
在构建mem9的过程中,我们还发现内存不应完全不可见。用户将内存体验为连续性,而非索引。他们关心系统是否感觉了解他们,是否能随时间连接线索,这种连续性是否可信而非诡异。因此,我们持续投资于可视化,例如Memory Farm——一个像素艺术风格的视觉记忆探索器,记忆如同植物在花园中生长,按主题聚类并通过关系连接。这种设计背后的严肃思考是:当用户能以更直观的形式看到模式、聚类、历史和关系时,内存变得更易理解。
从外部看,智能体内存是一个热门类别,但从内部看,它充满了艰难的边缘案例:大上下文窗口仍然有限,重要事实被近期噪音掩盖,朴素检索带回错误信息,重复浪费token,质量随内存增长而退化。一旦召回开始显得随机,用户信心迅速丧失。mem9从第一天起就构建在这些问题之中,因此产品如此迅速地从原始持久化转向摄取、协调、混合检索、排序、分析、基准测试和编排。
随着构建,我们越来越确信智能体的长期内存应超越纯文本检索。在多模态用例中,内存的含义发生变化:一个有用的内存系统不仅应检索多年前的句子,还应能检索图像、音频片段、交互和周围上下文。这一方向塑造了我们的很多思考,尤其是与drive9(我们新的文件和工件产品)的结合。
mem9从一个快速原型发展成为拥有超过一万用户的产品,仅用了两周多时间。这段旅程更像一个压缩的创业年,而非常规软件项目。我们学到的最重要的东西是:智能体内存不仅关乎存储,更关乎帮助智能体决定什么应该保留、什么应该浮现、什么应该保持安静。这是一个工程、产品与人类信任的交汇点。