2026-06-09站内改写2 分钟阅读更新: 2026-06-09

节省推理成本：提示缓存如何降低AI对话开销

本文探讨了在AI对话中，尤其是像Merrilin这样的阅读助手应用中，重复上下文导致的推理成本问题。通过提示缓存，可以大幅降低计算开销，将多轮对话的成本降低约2.8至3.3倍。文章详细解释了KV缓存的工作原理，并以实际对话和定价模型展示了成本节约。

来源Hacker News AI作者: stonecharioteer

在现代AI应用中，尤其是像Merrilin这样的阅读助手，每次对话都需要维护大量上下文信息，包括系统提示、书籍元数据、检索段落、读者状态以及历史回答。这导致了一个常见问题：每次新的用户提问虽然简短，但模型需要重新处理整个对话历史，造成高昂的计算成本。

提示缓存（Prompt Caching）正是解决这一问题的有效技术。其核心思想是，对于已经计算过的令牌，不再重复计算，而是缓存其键值（KV）表示。在Transformer架构中，每个注意力层都需要计算查询（Q）、键（K）和值（V）矩阵。其中K和V可以被缓存，而Q则必须为每个新令牌重新计算。通过缓存KV，后续对话中只有新添加的令牌需要计算KV，极大地减少了计算量。例如，对于Llama 70B模型处理20,000个令牌，如果不使用缓存，仅KV投影就需要约54 TFLOPs，耗时约27秒；而使用缓存后，仅需计算500个新令牌，耗时降至1.35毫秒，实现了约20,000倍的加速。

这种计算优势直接转化为成本节约。以Anthropic Claude Opus 4.7的定价为例，缓存读取价格为每百万令牌0.50美元（基础输入的10%），而写入价格为6.25美元（基础输入的1.25倍）。一个5轮对话，不缓存的总成本为0.053美元，使用缓存后降至0.01881美元，节省约2.8倍。对于OpenAI GPT-5.5，缓存读取价格为0.50美元，写入价格为基础输入5美元，总成本从0.053美元降至0.01588美元，节省约3.3倍。这些节省随对话轮次增加而扩大。

在Merrilin的实际应用中，这种成本控制至关重要。由于项目仍需自筹资金，减少不必要的推理开销意味着可以投入更多资源用于改善检索质量、提升回答准确性和用户体验。关键原则是保持稳定部分的稳定性——不随意重排长指令或检索上下文，将变化的用户消息放在最后，以便缓存机制发挥最大效用。

总之，提示缓存并非适用于所有场景，但对于具有长期记忆的智能体应用，如阅读助手、编程代理和研究工作流，它提供了显著的成本优势。通过简单的工程纪律，即可实现高达数倍的成本削减，而模型性能完全不受影响。