AI News HubLIVE
站内改写2 分钟阅读

节省推理成本:提示缓存如何降低AI对话开销

本文探讨了在AI对话中,尤其是像Merrilin这样的阅读助手应用中,重复上下文导致的推理成本问题。通过提示缓存,可以大幅降低计算开销,将多轮对话的成本降低约2.8至3.3倍。文章详细解释了KV缓存的工作原理,并以实际对话和定价模型展示了成本节约。

来源Hacker News AI作者: stonecharioteer

在现代AI应用中,尤其是像Merrilin这样的阅读助手,每次对话都需要维护大量上下文信息,包括系统提示、书籍元数据、检索段落、读者状态以及历史回答。这导致了一个常见问题:每次新的用户提问虽然简短,但模型需要重新处理整个对话历史,造成高昂的计算成本。

提示缓存(Prompt Caching)正是解决这一问题的有效技术。其核心思想是,对于已经计算过的令牌,不再重复计算,而是缓存其键值(KV)表示。在Transformer架构中,每个注意力层都需要计算查询(Q)、键(K)和值(V)矩阵。其中K和V可以被缓存,而Q则必须为每个新令牌重新计算。通过缓存KV,后续对话中只有新添加的令牌需要计算KV,极大地减少了计算量。例如,对于Llama 70B模型处理20,000个令牌,如果不使用缓存,仅KV投影就需要约54 TFLOPs,耗时约27秒;而使用缓存后,仅需计算500个新令牌,耗时降至1.35毫秒,实现了约20,000倍的加速。

这种计算优势直接转化为成本节约。以Anthropic Claude Opus 4.7的定价为例,缓存读取价格为每百万令牌0.50美元(基础输入的10%),而写入价格为6.25美元(基础输入的1.25倍)。一个5轮对话,不缓存的总成本为0.053美元,使用缓存后降至0.01881美元,节省约2.8倍。对于OpenAI GPT-5.5,缓存读取价格为0.50美元,写入价格为基础输入5美元,总成本从0.053美元降至0.01588美元,节省约3.3倍。这些节省随对话轮次增加而扩大。

在Merrilin的实际应用中,这种成本控制至关重要。由于项目仍需自筹资金,减少不必要的推理开销意味着可以投入更多资源用于改善检索质量、提升回答准确性和用户体验。关键原则是保持稳定部分的稳定性——不随意重排长指令或检索上下文,将变化的用户消息放在最后,以便缓存机制发挥最大效用。

总之,提示缓存并非适用于所有场景,但对于具有长期记忆的智能体应用,如阅读助手、编程代理和研究工作流,它提供了显著的成本优势。通过简单的工程纪律,即可实现高达数倍的成本削减,而模型性能完全不受影响。