代理的記憶:推出Agent Memory
Cloudflare Agent Memory 是一項託管服務,為AI代理提供持久記憶,使其能夠記住重要信息,遺忘不必要的內容,並隨着時間的推移變得更加智能。
在構建日益複雜的AI代理時,開發者面臨的關鍵挑戰之一是如何在正確的時間將正確的信息引入上下文。模型輸出質量直接取決於其操作上下文的品質,但即使上下文窗口已增長至超過100萬個token,上下文腐爛仍是一個未解決的問題。Cloudflare 今日宣佈推出 Agent Memory 私有測試版,這是一項託管服務,能從代理對話中提取信息,並在需要時提供,同時避免填充上下文窗口。
Agent Memory 為AI代理提供持久記憶,使其能夠記住重要信息,遺忘不必要的內容,並隨時間推移變得更智能。該服務通過一個帶有意見的API和基於檢索的架構來實現,其設計重點在於高效提取和檢索,而非給代理原始數據訪問權限。在衡量標準如LongMemEval、LoCoMo和BEAM上,Agent Memory 的表現經過優化,但更重要的是,它在生產環境中保持實用。
用户可以通過 Workers 中的綁定或 REST API 使用 Agent Memory。核心操作包括:通過 ingest 批量處理對話、通過 remember 立即存儲重要信息、通過 recall 檢索合成答案。記憶存儲在按名稱尋址的 profile 中,支持跨會話、代理和用户共享。
Agent Memory 的內部工作流程分為提取和檢索兩個管道。提取管道首先對消息進行基於內容的確定性ID生成,然後並行運行全輪和細節提取。提取後的記憶經過驗證、分類為事實、事件、指令或任務,並去重存儲。檢索管道則並行運行五種搜索方法(全文搜索、精確事實鍵匹配、原始消息搜索、直接向量搜索和HyDE向量搜索),最後通過倒數排名融合合併結果,並由合成模型生成自然語言答案。
Cloudflare 團隊利用自身平台構建了 Agent Memory:Durable Objects 提供計算隔離和存儲,Vectorize 支持向量搜索,Workers AI 運行所有LLM和嵌入模型。一個有趣的發現是,更大的模型並不總是更好:他們默認使用 Llama 4 Scout 進行結構化分類,而使用 Nemotron 3 進行合成,因為後者具有更大的推理能力。內部使用案例包括編碼代理記憶、代理式代碼審查和聊天機器人。Agent Memory 目前處於私有測試階段,感興趣的用户可聯繫加入等待列表。