2026-06-27 01:13 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 01:18 UTC+8

深度代理的提示緩存

瞭解Deep Agents如何利用提示緩存，在無需額外配置的情況下，將各大模型提供商的LLM Token成本降低高達80%。

大語言模型（LLM）在運行代理時，Token成本會隨着對話長度快速增加。每次新消息，模型都需要重新處理整個對話歷史，包括系統提示、工具描述、技能、消息歷史等。提示緩存（Prompt Caching）通過存儲模型處理後的狀態快照，讓後續請求僅需處理新增文本，從而顯著降低成本。然而，不同模型提供商對緩存控制的支持各不相同，實現跨提供商的最佳緩存效果頗具挑戰。

Deep Agents 是一個通用、模型無關的代理框架，它能夠自動利用各主要提供商的提示緩存功能。該框架通過設置顯式斷點（當提供商支持時）、選擇隱式緩存（當顯式斷點不支持時），以及優化提示結構來最大化緩存命中率。例如，在更新記憶或壓縮對話時，緩存可能失效，但Deep Agents通過結構化提示和緩存斷點，儘量減小失效範圍，即使部分動態內容變化，仍能保持緩存命中。

評估結果顯示了顯著的成本節約。針對三個提供商的中端模型（Claude Haiku 4-5、GPT-5.4-mini、Gemini 3.5 Flash）的測試表明，提示緩存將Token成本降低了49-80%。其中，GPT-5.4-mini受益於OpenAI的自動最長前綴緩存，成本下降高達80%；Claude Haiku 4-5利用Anthropic的顯式斷點，節省77%；Gemini 3.5 Flash儘管使用隱式緩存，仍實現49%的節約。對話越長，緩存帶來的收益越大，因此長週期任務受益最多。

測量緩存效果同樣重要。LangSmith提供了每步調用和每個軌跡級別的可見性，包括首次Token時間、總輸入Token、緩存讀取Token和輸出Token。通過分析這些數據，開發者可以準確評估緩存帶來的成本降低，並優化代理策略。

隨着模型提供商繼續擴展提示緩存功能（如緩存預熱、路由鍵、可配置TTL），Deep Agents將不斷集成這些新特性，為用户提供持續的降本增效體驗。