2026-04-17 21:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

代理的記憶：推出Agent Memory

Cloudflare Agent Memory 是一項託管服務，為AI代理提供持久記憶，使其能夠記住重要資訊，遺忘不必要的內容，並隨著時間的推移變得更加智慧。

來源Cloudflare AI Blog作者: Tyson Trautmann

在構建日益複雜的AI代理時，開發者面臨的關鍵挑戰之一是如何在正確的時間將正確的資訊引入上下文。模型輸出質量直接取決於其操作上下文的品質，但即使上下文視窗已增長至超過100萬個token，上下文腐爛仍是一個未解決的問題。Cloudflare 今日宣佈推出 Agent Memory 私有測試版，這是一項託管服務，能從代理對話中提取資訊，並在需要時提供，同時避免填充上下文視窗。

Agent Memory 為AI代理提供持久記憶，使其能夠記住重要資訊，遺忘不必要的內容，並隨時間推移變得更智慧。該服務透過一個帶有意見的API和基於檢索的架構來實現，其設計重點在於高效提取和檢索，而非給代理原始資料訪問許可權。在衡量標準如LongMemEval、LoCoMo和BEAM上，Agent Memory 的表現經過最佳化，但更重要的是，它在生產環境中保持實用。

使用者可以透過 Workers 中的繫結或 REST API 使用 Agent Memory。核心操作包括：透過 ingest 批次處理對話、透過 remember 立即儲存重要資訊、透過 recall 檢索合成答案。記憶儲存在按名稱定址的 profile 中，支援跨會話、代理和使用者共享。

Agent Memory 的內部工作流程分為提取和檢索兩個管道。提取管道首先對訊息進行基於內容的確定性ID生成，然後並行執行全輪和細節提取。提取後的記憶經過驗證、分類為事實、事件、指令或任務，並去重儲存。檢索管道則並行執行五種搜尋方法（全文搜尋、精確事實鍵匹配、原始訊息搜尋、直接向量搜尋和HyDE向量搜尋），最後透過倒數排名融合合併結果，並由合成模型生成自然語言答案。

Cloudflare 團隊利用自身平臺構建了 Agent Memory：Durable Objects 提供計算隔離和儲存，Vectorize 支援向量搜尋，Workers AI 執行所有LLM和嵌入模型。一個有趣的發現是，更大的模型並不總是更好：他們預設使用 Llama 4 Scout 進行結構化分類，而使用 Nemotron 3 進行合成，因為後者具有更大的推理能力。內部使用案例包括編碼代理記憶、代理式程式碼審查和聊天機器人。Agent Memory 目前處於私有測試階段，感興趣的使用者可聯絡加入等待列表。