2026-04-17 21:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

代理的记忆：推出Agent Memory

Cloudflare Agent Memory 是一项托管服务，为AI代理提供持久记忆，使其能够记住重要信息，遗忘不必要的内容，并随着时间的推移变得更加智能。

来源Cloudflare AI Blog作者: Tyson Trautmann

在构建日益复杂的AI代理时，开发者面临的关键挑战之一是如何在正确的时间将正确的信息引入上下文。模型输出质量直接取决于其操作上下文的品质，但即使上下文窗口已增长至超过100万个token，上下文腐烂仍是一个未解决的问题。Cloudflare 今日宣布推出 Agent Memory 私有测试版，这是一项托管服务，能从代理对话中提取信息，并在需要时提供，同时避免填充上下文窗口。

Agent Memory 为AI代理提供持久记忆，使其能够记住重要信息，遗忘不必要的内容，并随时间推移变得更智能。该服务通过一个带有意见的API和基于检索的架构来实现，其设计重点在于高效提取和检索，而非给代理原始数据访问权限。在衡量标准如LongMemEval、LoCoMo和BEAM上，Agent Memory 的表现经过优化，但更重要的是，它在生产环境中保持实用。

用户可以通过 Workers 中的绑定或 REST API 使用 Agent Memory。核心操作包括：通过 ingest 批量处理对话、通过 remember 立即存储重要信息、通过 recall 检索合成答案。记忆存储在按名称寻址的 profile 中，支持跨会话、代理和用户共享。

Agent Memory 的内部工作流程分为提取和检索两个管道。提取管道首先对消息进行基于内容的确定性ID生成，然后并行运行全轮和细节提取。提取后的记忆经过验证、分类为事实、事件、指令或任务，并去重存储。检索管道则并行运行五种搜索方法（全文搜索、精确事实键匹配、原始消息搜索、直接向量搜索和HyDE向量搜索），最后通过倒数排名融合合并结果，并由合成模型生成自然语言答案。

Cloudflare 团队利用自身平台构建了 Agent Memory：Durable Objects 提供计算隔离和存储，Vectorize 支持向量搜索，Workers AI 运行所有LLM和嵌入模型。一个有趣的发现是，更大的模型并不总是更好：他们默认使用 Llama 4 Scout 进行结构化分类，而使用 Nemotron 3 进行合成，因为后者具有更大的推理能力。内部使用案例包括编码代理记忆、代理式代码审查和聊天机器人。Agent Memory 目前处于私有测试阶段，感兴趣的用户可联系加入等待列表。