AI News HubLIVE
站内改写2 分鐘閱讀

展示 HN:我們透過移除重複上下文將代理任務的令牌消耗減少了60%以上

本文介紹 Parcle,一個為AI代理設計的共享記憶層,透過索引和檢索相關記憶而非重複載入全部上下文,顯著降低令牌消耗。實測顯示令牌使用降低高達70%,任務完成速度提升約2倍。

來源Hacker News AI作者: longtermop

我們注意到,目前大多數AI代理系統都存在一個隱藏的成本問題:模型不斷重複讀取相同的上下文資訊。無論是工單、Slack討論、文件、客戶歷史、資料庫記錄、操作手冊、日誌還是先前的決策,代理在每次任務開始時都傾向於重新探索一切,導致大量的令牌浪費。雖然可以透過快取靜態字首、使用更便宜的模型或設定團隊預算來緩解,但這些方法都沒有從根本上解決問題。

我們構建了Parcle,這是一個為AI代理設計的共享記憶層。它能夠獲取操作上下文,索引已發生的事件,並允許代理在下一步時只檢索一小部分相關的記憶,而不是將全部內容貼上回提示中,或者更糟的是讓代理自行探索而消耗大量令牌。

在我們的部署和評估中,我們追蹤了使用和不使用Parcle記憶層時任務的令牌消耗。結果顯示,令牌使用最多降低了70%,任務完成速度大約快了兩倍。中位數令牌消耗降低了約30%。最大的節省往往出現在資料和上下文密集型的工作流中,例如代理需要從多個來源檢索資料和上下文時。目前效果最好的場景包括支援、運營、研究、銷售和財務等工作流,這些場景中代理原本會一次又一次地重新載入相同的賬戶、工作流或歷史上下文。

我們認為這一點在當前尤為重要。Pylon的AI成本文章促使我們思考:企業實際上支付了多少費用,因為他們的代理不斷尋找相同的上下文?這是否是一個可以透過記憶來解決的隱藏稅收?我們構建Parcle的目的是讓代理能夠記住。令人驚訝的是,記憶不僅使代理更有用,還減少了令牌消耗。更少的令牌花在尋找資訊上,更多的時間用在真正有價值的工作上。

此外,Anthropic指出代理使用的令牌大約是聊天的4倍,我們認為這個數字可能被低估了。OpenAI和Anthropic都提供了提示快取功能,因為重複的提示上下文成本高昂,但快取僅在可重用內容足夠穩定時才有效,而且在5到15分鐘不活動後就會失效。同時,“中間丟失”和Chroma的“上下文腐爛”研究都指出了同樣的問題:更多的上下文並不等同於可用的記憶。上下文工程領域似乎正在達成共識:困難的部分是決定模型在每個步驟應該看到什麼。

Parcle是我們讓這一概念可操作的嘗試:將記憶置於模型之外,僅在有用時才將其選擇進入上下文。我們很希望從在生產環境中執行真實代理的人那裡獲得反饋:你的令牌實際上消耗在哪裡?是重複的輸入上下文、工具追蹤、重試、輸出、評估還是其他?提示快取和模型路由是否足夠?要信任代理迴圈中的外部記憶層,你需要什麼?