深度代理的提示緩存
瞭解Deep Agents如何利用提示緩存,在無需額外配置的情況下,將各大模型提供商的LLM Token成本降低高達80%。
大語言模型(LLM)在運行代理時,Token成本會隨着對話長度快速增加。每次新消息,模型都需要重新處理整個對話歷史,包括系統提示、工具描述、技能、消息歷史等。提示緩存(Prompt Caching)通過存儲模型處理後的狀態快照,讓後續請求僅需處理新增文本,從而顯著降低成本。然而,不同模型提供商對緩存控制的支持各不相同,實現跨提供商的最佳緩存效果頗具挑戰。
Deep Agents 是一個通用、模型無關的代理框架,它能夠自動利用各主要提供商的提示緩存功能。該框架通過設置顯式斷點(當提供商支持時)、選擇隱式緩存(當顯式斷點不支持時),以及優化提示結構來最大化緩存命中率。例如,在更新記憶或壓縮對話時,緩存可能失效,但Deep Agents通過結構化提示和緩存斷點,儘量減小失效範圍,即使部分動態內容變化,仍能保持緩存命中。
評估結果顯示了顯著的成本節約。針對三個提供商的中端模型(Claude Haiku 4-5、GPT-5.4-mini、Gemini 3.5 Flash)的測試表明,提示緩存將Token成本降低了49-80%。其中,GPT-5.4-mini受益於OpenAI的自動最長前綴緩存,成本下降高達80%;Claude Haiku 4-5利用Anthropic的顯式斷點,節省77%;Gemini 3.5 Flash儘管使用隱式緩存,仍實現49%的節約。對話越長,緩存帶來的收益越大,因此長週期任務受益最多。
測量緩存效果同樣重要。LangSmith提供了每步調用和每個軌跡級別的可見性,包括首次Token時間、總輸入Token、緩存讀取Token和輸出Token。通過分析這些數據,開發者可以準確評估緩存帶來的成本降低,並優化代理策略。
隨着模型提供商繼續擴展提示緩存功能(如緩存預熱、路由鍵、可配置TTL),Deep Agents將不斷集成這些新特性,為用户提供持續的降本增效體驗。