深度代理的提示快取
瞭解Deep Agents如何利用提示快取,在無需額外配置的情況下,將各大模型提供商的LLM Token成本降低高達80%。
大語言模型(LLM)在執行代理時,Token成本會隨著對話長度快速增加。每次新訊息,模型都需要重新處理整個對話歷史,包括系統提示、工具描述、技能、訊息歷史等。提示快取(Prompt Caching)透過儲存模型處理後的狀態快照,讓後續請求僅需處理新增文本,從而顯著降低成本。然而,不同模型提供商對快取控制的支援各不相同,實現跨提供商的最佳快取效果頗具挑戰。
Deep Agents 是一個通用、模型無關的代理框架,它能夠自動利用各主要提供商的提示快取功能。該框架透過設定顯式斷點(當提供商支援時)、選擇隱式快取(當顯式斷點不支援時),以及最佳化提示結構來最大化快取命中率。例如,在更新記憶或壓縮對話時,快取可能失效,但Deep Agents透過結構化提示和快取斷點,儘量減小失效範圍,即使部分動態內容變化,仍能保持快取命中。
評估結果顯示了顯著的成本節約。針對三個提供商的中端模型(Claude Haiku 4-5、GPT-5.4-mini、Gemini 3.5 Flash)的測試表明,提示快取將Token成本降低了49-80%。其中,GPT-5.4-mini受益於OpenAI的自動最長字首快取,成本下降高達80%;Claude Haiku 4-5利用Anthropic的顯式斷點,節省77%;Gemini 3.5 Flash儘管使用隱式快取,仍實現49%的節約。對話越長,快取帶來的收益越大,因此長週期任務受益最多。
測量快取效果同樣重要。LangSmith提供了每步呼叫和每個軌跡級別的可見性,包括首次Token時間、總輸入Token、快取讀取Token和輸出Token。透過分析這些資料,開發者可以準確評估快取帶來的成本降低,並最佳化代理策略。
隨著模型提供商繼續擴充套件提示快取功能(如快取預熱、路由鍵、可配置TTL),Deep Agents將不斷整合這些新特性,為使用者提供持續的降本增效體驗。