2026-06-27 01:13 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 01:18 UTC+8

深度代理的提示快取

瞭解Deep Agents如何利用提示快取，在無需額外配置的情況下，將各大模型提供商的LLM Token成本降低高達80%。

大語言模型（LLM）在執行代理時，Token成本會隨著對話長度快速增加。每次新訊息，模型都需要重新處理整個對話歷史，包括系統提示、工具描述、技能、訊息歷史等。提示快取（Prompt Caching）透過儲存模型處理後的狀態快照，讓後續請求僅需處理新增文本，從而顯著降低成本。然而，不同模型提供商對快取控制的支援各不相同，實現跨提供商的最佳快取效果頗具挑戰。

Deep Agents 是一個通用、模型無關的代理框架，它能夠自動利用各主要提供商的提示快取功能。該框架透過設定顯式斷點（當提供商支援時）、選擇隱式快取（當顯式斷點不支援時），以及最佳化提示結構來最大化快取命中率。例如，在更新記憶或壓縮對話時，快取可能失效，但Deep Agents透過結構化提示和快取斷點，儘量減小失效範圍，即使部分動態內容變化，仍能保持快取命中。

評估結果顯示了顯著的成本節約。針對三個提供商的中端模型（Claude Haiku 4-5、GPT-5.4-mini、Gemini 3.5 Flash）的測試表明，提示快取將Token成本降低了49-80%。其中，GPT-5.4-mini受益於OpenAI的自動最長字首快取，成本下降高達80%；Claude Haiku 4-5利用Anthropic的顯式斷點，節省77%；Gemini 3.5 Flash儘管使用隱式快取，仍實現49%的節約。對話越長，快取帶來的收益越大，因此長週期任務受益最多。

測量快取效果同樣重要。LangSmith提供了每步呼叫和每個軌跡級別的可見性，包括首次Token時間、總輸入Token、快取讀取Token和輸出Token。透過分析這些資料，開發者可以準確評估快取帶來的成本降低，並最佳化代理策略。

隨著模型提供商繼續擴充套件提示快取功能（如快取預熱、路由鍵、可配置TTL），Deep Agents將不斷整合這些新特性，為使用者提供持續的降本增效體驗。