2026-06-09站内改写2 分鐘閱讀更新: 2026-06-09

節省推理成本：提示緩存如何降低AI對話開銷

本文探討了在AI對話中，尤其是像Merrilin這樣的閲讀助手應用中，重複上下文導致的推理成本問題。通過提示緩存，可以大幅降低計算開銷，將多輪對話的成本降低約2.8至3.3倍。文章詳細解釋了KV緩存的工作原理，並以實際對話和定價模型展示了成本節約。

來源Hacker News AI作者: stonecharioteer

在現代AI應用中，尤其是像Merrilin這樣的閲讀助手，每次對話都需要維護大量上下文信息，包括系統提示、書籍元數據、檢索段落、讀者狀態以及歷史回答。這導致了一個常見問題：每次新的用户提問雖然簡短，但模型需要重新處理整個對話歷史，造成高昂的計算成本。

提示緩存（Prompt Caching）正是解決這一問題的有效技術。其核心思想是，對於已經計算過的令牌，不再重複計算，而是緩存其鍵值（KV）表示。在Transformer架構中，每個注意力層都需要計算查詢（Q）、鍵（K）和值（V）矩陣。其中K和V可以被緩存，而Q則必須為每個新令牌重新計算。通過緩存KV，後續對話中只有新添加的令牌需要計算KV，極大地減少了計算量。例如，對於Llama 70B模型處理20,000個令牌，如果不使用緩存，僅KV投影就需要約54 TFLOPs，耗時約27秒；而使用緩存後，僅需計算500個新令牌，耗時降至1.35毫秒，實現了約20,000倍的加速。

這種計算優勢直接轉化為成本節約。以Anthropic Claude Opus 4.7的定價為例，緩存讀取價格為每百萬令牌0.50美元（基礎輸入的10%），而寫入價格為6.25美元（基礎輸入的1.25倍）。一個5輪對話，不緩存的總成本為0.053美元，使用緩存後降至0.01881美元，節省約2.8倍。對於OpenAI GPT-5.5，緩存讀取價格為0.50美元，寫入價格為基礎輸入5美元，總成本從0.053美元降至0.01588美元，節省約3.3倍。這些節省隨對話輪次增加而擴大。

在Merrilin的實際應用中，這種成本控制至關重要。由於項目仍需自籌資金，減少不必要的推理開銷意味着可以投入更多資源用於改善檢索質量、提升回答準確性和用户體驗。關鍵原則是保持穩定部分的穩定性——不隨意重排長指令或檢索上下文，將變化的用户消息放在最後，以便緩存機制發揮最大效用。

總之，提示緩存並非適用於所有場景，但對於具有長期記憶的智能體應用，如閲讀助手、編程代理和研究工作流，它提供了顯著的成本優勢。通過簡單的工程紀律，即可實現高達數倍的成本削減，而模型性能完全不受影響。