2026-06-27 01:13 UTC+8站内改写1 分钟阅读更新: 2026-06-27 01:18 UTC+8

深度代理的提示缓存

了解Deep Agents如何利用提示缓存，在无需额外配置的情况下，将各大模型提供商的LLM Token成本降低高达80%。

大语言模型（LLM）在运行代理时，Token成本会随着对话长度快速增加。每次新消息，模型都需要重新处理整个对话历史，包括系统提示、工具描述、技能、消息历史等。提示缓存（Prompt Caching）通过存储模型处理后的状态快照，让后续请求仅需处理新增文本，从而显著降低成本。然而，不同模型提供商对缓存控制的支持各不相同，实现跨提供商的最佳缓存效果颇具挑战。

Deep Agents 是一个通用、模型无关的代理框架，它能够自动利用各主要提供商的提示缓存功能。该框架通过设置显式断点（当提供商支持时）、选择隐式缓存（当显式断点不支持时），以及优化提示结构来最大化缓存命中率。例如，在更新记忆或压缩对话时，缓存可能失效，但Deep Agents通过结构化提示和缓存断点，尽量减小失效范围，即使部分动态内容变化，仍能保持缓存命中。

评估结果显示了显著的成本节约。针对三个提供商的中端模型（Claude Haiku 4-5、GPT-5.4-mini、Gemini 3.5 Flash）的测试表明，提示缓存将Token成本降低了49-80%。其中，GPT-5.4-mini受益于OpenAI的自动最长前缀缓存，成本下降高达80%；Claude Haiku 4-5利用Anthropic的显式断点，节省77%；Gemini 3.5 Flash尽管使用隐式缓存，仍实现49%的节约。对话越长，缓存带来的收益越大，因此长周期任务受益最多。

测量缓存效果同样重要。LangSmith提供了每步调用和每个轨迹级别的可见性，包括首次Token时间、总输入Token、缓存读取Token和输出Token。通过分析这些数据，开发者可以准确评估缓存带来的成本降低，并优化代理策略。

随着模型提供商继续扩展提示缓存功能（如缓存预热、路由键、可配置TTL），Deep Agents将不断集成这些新特性，为用户提供持续的降本增效体验。