AI News HubLIVE
站内改写1 分钟阅读

深度代理的提示缓存

了解Deep Agents如何利用提示缓存,在无需额外配置的情况下,将各大模型提供商的LLM Token成本降低高达80%。

大语言模型(LLM)在运行代理时,Token成本会随着对话长度快速增加。每次新消息,模型都需要重新处理整个对话历史,包括系统提示、工具描述、技能、消息历史等。提示缓存(Prompt Caching)通过存储模型处理后的状态快照,让后续请求仅需处理新增文本,从而显著降低成本。然而,不同模型提供商对缓存控制的支持各不相同,实现跨提供商的最佳缓存效果颇具挑战。

Deep Agents 是一个通用、模型无关的代理框架,它能够自动利用各主要提供商的提示缓存功能。该框架通过设置显式断点(当提供商支持时)、选择隐式缓存(当显式断点不支持时),以及优化提示结构来最大化缓存命中率。例如,在更新记忆或压缩对话时,缓存可能失效,但Deep Agents通过结构化提示和缓存断点,尽量减小失效范围,即使部分动态内容变化,仍能保持缓存命中。

评估结果显示了显著的成本节约。针对三个提供商的中端模型(Claude Haiku 4-5、GPT-5.4-mini、Gemini 3.5 Flash)的测试表明,提示缓存将Token成本降低了49-80%。其中,GPT-5.4-mini受益于OpenAI的自动最长前缀缓存,成本下降高达80%;Claude Haiku 4-5利用Anthropic的显式断点,节省77%;Gemini 3.5 Flash尽管使用隐式缓存,仍实现49%的节约。对话越长,缓存带来的收益越大,因此长周期任务受益最多。

测量缓存效果同样重要。LangSmith提供了每步调用和每个轨迹级别的可见性,包括首次Token时间、总输入Token、缓存读取Token和输出Token。通过分析这些数据,开发者可以准确评估缓存带来的成本降低,并优化代理策略。

随着模型提供商继续扩展提示缓存功能(如缓存预热、路由键、可配置TTL),Deep Agents将不断集成这些新特性,为用户提供持续的降本增效体验。