2026-06-18站内改写2 分鐘閱讀更新: 2026-06-18

展示 HN：我們透過移除重複上下文將代理任務的令牌消耗減少了60%以上

本文介紹 Parcle，一個為AI代理設計的共享記憶層，透過索引和檢索相關記憶而非重複載入全部上下文，顯著降低令牌消耗。實測顯示令牌使用降低高達70%，任務完成速度提升約2倍。

來源Hacker News AI作者: longtermop

我們注意到，目前大多數AI代理系統都存在一個隱藏的成本問題：模型不斷重複讀取相同的上下文資訊。無論是工單、Slack討論、文件、客戶歷史、資料庫記錄、操作手冊、日誌還是先前的決策，代理在每次任務開始時都傾向於重新探索一切，導致大量的令牌浪費。雖然可以透過快取靜態字首、使用更便宜的模型或設定團隊預算來緩解，但這些方法都沒有從根本上解決問題。

我們構建了Parcle，這是一個為AI代理設計的共享記憶層。它能夠獲取操作上下文，索引已發生的事件，並允許代理在下一步時只檢索一小部分相關的記憶，而不是將全部內容貼上回提示中，或者更糟的是讓代理自行探索而消耗大量令牌。

在我們的部署和評估中，我們追蹤了使用和不使用Parcle記憶層時任務的令牌消耗。結果顯示，令牌使用最多降低了70%，任務完成速度大約快了兩倍。中位數令牌消耗降低了約30%。最大的節省往往出現在資料和上下文密集型的工作流中，例如代理需要從多個來源檢索資料和上下文時。目前效果最好的場景包括支援、運營、研究、銷售和財務等工作流，這些場景中代理原本會一次又一次地重新載入相同的賬戶、工作流或歷史上下文。

我們認為這一點在當前尤為重要。Pylon的AI成本文章促使我們思考：企業實際上支付了多少費用，因為他們的代理不斷尋找相同的上下文？這是否是一個可以透過記憶來解決的隱藏稅收？我們構建Parcle的目的是讓代理能夠記住。令人驚訝的是，記憶不僅使代理更有用，還減少了令牌消耗。更少的令牌花在尋找資訊上，更多的時間用在真正有價值的工作上。

此外，Anthropic指出代理使用的令牌大約是聊天的4倍，我們認為這個數字可能被低估了。OpenAI和Anthropic都提供了提示快取功能，因為重複的提示上下文成本高昂，但快取僅在可重用內容足夠穩定時才有效，而且在5到15分鐘不活動後就會失效。同時，“中間丟失”和Chroma的“上下文腐爛”研究都指出了同樣的問題：更多的上下文並不等同於可用的記憶。上下文工程領域似乎正在達成共識：困難的部分是決定模型在每個步驟應該看到什麼。

Parcle是我們讓這一概念可操作的嘗試：將記憶置於模型之外，僅在有用時才將其選擇進入上下文。我們很希望從在生產環境中執行真實代理的人那裡獲得反饋：你的令牌實際上消耗在哪裡？是重複的輸入上下文、工具追蹤、重試、輸出、評估還是其他？提示快取和模型路由是否足夠？要信任代理迴圈中的外部記憶層，你需要什麼？