AI News HubLIVE
站内改写2 分鐘閱讀

節省推理成本:提示快取如何降低AI對話開銷

本文探討了在AI對話中,尤其是像Merrilin這樣的閱讀助手應用中,重複上下文導致的推理成本問題。透過提示快取,可以大幅降低計算開銷,將多輪對話的成本降低約2.8至3.3倍。文章詳細解釋了KV快取的工作原理,並以實際對話和定價模型展示了成本節約。

來源Hacker News AI作者: stonecharioteer

在現代AI應用中,尤其是像Merrilin這樣的閱讀助手,每次對話都需要維護大量上下文資訊,包括系統提示、書籍後設資料、檢索段落、讀者狀態以及歷史回答。這導致了一個常見問題:每次新的使用者提問雖然簡短,但模型需要重新處理整個對話歷史,造成高昂的計算成本。

提示快取(Prompt Caching)正是解決這一問題的有效技術。其核心思想是,對於已經計算過的令牌,不再重複計算,而是快取其鍵值(KV)表示。在Transformer架構中,每個注意力層都需要計算查詢(Q)、鍵(K)和值(V)矩陣。其中K和V可以被快取,而Q則必須為每個新令牌重新計算。透過快取KV,後續對話中只有新新增的令牌需要計算KV,極大地減少了計算量。例如,對於Llama 70B模型處理20,000個令牌,如果不使用快取,僅KV投影就需要約54 TFLOPs,耗時約27秒;而使用快取後,僅需計算500個新令牌,耗時降至1.35毫秒,實現了約20,000倍的加速。

這種計算優勢直接轉化為成本節約。以Anthropic Claude Opus 4.7的定價為例,快取讀取價格為每百萬令牌0.50美元(基礎輸入的10%),而寫入價格為6.25美元(基礎輸入的1.25倍)。一個5輪對話,不快取的總成本為0.053美元,使用快取後降至0.01881美元,節省約2.8倍。對於OpenAI GPT-5.5,快取讀取價格為0.50美元,寫入價格為基礎輸入5美元,總成本從0.053美元降至0.01588美元,節省約3.3倍。這些節省隨對話輪次增加而擴大。

在Merrilin的實際應用中,這種成本控制至關重要。由於專案仍需自籌資金,減少不必要的推理開銷意味著可以投入更多資源用於改善檢索質量、提升回答準確性和使用者體驗。關鍵原則是保持穩定部分的穩定性——不隨意重排長指令或檢索上下文,將變化的使用者訊息放在最後,以便快取機制發揮最大效用。

總之,提示快取並非適用於所有場景,但對於具有長期記憶的智慧體應用,如閱讀助手、程式設計代理和研究工作流,它提供了顯著的成本優勢。透過簡單的工程紀律,即可實現高達數倍的成本削減,而模型效能完全不受影響。