2026-06-09站内改写2 分鐘閱讀更新: 2026-06-09

節省推理成本：提示快取如何降低AI對話開銷

本文探討了在AI對話中，尤其是像Merrilin這樣的閱讀助手應用中，重複上下文導致的推理成本問題。透過提示快取，可以大幅降低計算開銷，將多輪對話的成本降低約2.8至3.3倍。文章詳細解釋了KV快取的工作原理，並以實際對話和定價模型展示了成本節約。

來源Hacker News AI作者: stonecharioteer

在現代AI應用中，尤其是像Merrilin這樣的閱讀助手，每次對話都需要維護大量上下文資訊，包括系統提示、書籍後設資料、檢索段落、讀者狀態以及歷史回答。這導致了一個常見問題：每次新的使用者提問雖然簡短，但模型需要重新處理整個對話歷史，造成高昂的計算成本。

提示快取（Prompt Caching）正是解決這一問題的有效技術。其核心思想是，對於已經計算過的令牌，不再重複計算，而是快取其鍵值（KV）表示。在Transformer架構中，每個注意力層都需要計算查詢（Q）、鍵（K）和值（V）矩陣。其中K和V可以被快取，而Q則必須為每個新令牌重新計算。透過快取KV，後續對話中只有新新增的令牌需要計算KV，極大地減少了計算量。例如，對於Llama 70B模型處理20,000個令牌，如果不使用快取，僅KV投影就需要約54 TFLOPs，耗時約27秒；而使用快取後，僅需計算500個新令牌，耗時降至1.35毫秒，實現了約20,000倍的加速。

這種計算優勢直接轉化為成本節約。以Anthropic Claude Opus 4.7的定價為例，快取讀取價格為每百萬令牌0.50美元（基礎輸入的10%），而寫入價格為6.25美元（基礎輸入的1.25倍）。一個5輪對話，不快取的總成本為0.053美元，使用快取後降至0.01881美元，節省約2.8倍。對於OpenAI GPT-5.5，快取讀取價格為0.50美元，寫入價格為基礎輸入5美元，總成本從0.053美元降至0.01588美元，節省約3.3倍。這些節省隨對話輪次增加而擴大。

在Merrilin的實際應用中，這種成本控制至關重要。由於專案仍需自籌資金，減少不必要的推理開銷意味著可以投入更多資源用於改善檢索質量、提升回答準確性和使用者體驗。關鍵原則是保持穩定部分的穩定性——不隨意重排長指令或檢索上下文，將變化的使用者訊息放在最後，以便快取機制發揮最大效用。

總之，提示快取並非適用於所有場景，但對於具有長期記憶的智慧體應用，如閱讀助手、程式設計代理和研究工作流，它提供了顯著的成本優勢。透過簡單的工程紀律，即可實現高達數倍的成本削減，而模型效能完全不受影響。