2026-05-15 10:16 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

GroqCloud為GPT-OSS模型推出提示緩存與降價措施

Groq宣佈對其GPT-OSS模型進行兩項重要更新：降低價格和推出提示緩存功能，旨在提升AI推理的成本效益和速度。降價立即生效，並追溯至2025年10月所有未付款發票。提示緩存可帶來高達50%的緩存令牌折扣、更低的延遲以及更高的速率限制，且無需任何配置。

來源Groq Blog

Groq今日宣佈對其GPT-OSS模型系列進行兩項重大改進：降低價格和引入提示緩存功能。這些更新旨在為開發者提供更高效、更經濟的AI推理體驗。

首先，GroqCloud上的GPT-OSS模型價格已全面下調。新價格即日生效，並將追溯應用於2025年10月所有未付款發票。這意味着開發者從現在起就能享受到更低的成本，同時過去的未結賬單也將自動調整。

其次，提示緩存的推出是本次更新的亮點。該功能已在GPT-OSS-20B模型上悄然上線，並將在未來幾周內推廣至GPT-OSS-120B模型。提示緩存的工作原理是識別並重用最近請求中相同的令牌前綴。一旦命中緩存，開發者即可享受以下好處：

緩存令牌獲得50%的折扣：所有位於相同前綴中的輸入令牌享受半價優惠，而第一個差異之後的令牌則按原價計費。
顯著降低延遲：對於共享相同令牌前綴的請求，響應速度大幅提升。
速率限制更寬鬆：緩存令牌不佔用GroqCloud的速率限制配額。
零配置：所有API請求自動啓用，無需任何代碼修改。

以實際價格為例，GPT-OSS-120B模型未緩存令牌的輸入價格為每百萬令牌0.15美元，而緩存後僅需0.075美元；GPT-OSS-20B模型則從0.075美元降至0.0375美元。

Cluely公司的創始人工程師Guilherme Garibaldi表示：“我們專注於實時AI，延遲至關重要。我們已經在使用Groq處理最時效性的生成任務，而提示緩存不僅能加速我們的產品，還能開啓全新的用例。在我們的生成中，平均92%的提示是重複使用的，因此提示緩存在速度和品質上都將帶來革命性變化。”

提示緩存特別適用於具有穩定可重用提示組件的工作流。例如，RAG平台和數據應用中的長系統提示和檢索模板可被緩存並跨查詢重用；代理應用中的重複工具調用和樣本示例可跨調用複用；評估管道中大規模數據集的相同提示可從緩存中服務；聊天機器人中持久的品牌風格和政策前言也可緩存並重用。

緩存機制採用前綴匹配，系統從最近的請求中識別匹配前綴。如果找到匹配前綴，則重用緩存計算，大幅降低延遲並將緩存部分的令牌成本降低50%。如果沒有匹配，則正常處理提示，但前綴會暫時緩存以備將來匹配。所有緩存數據會在幾小時內自動過期。

Groq還提供內置工具、響應API以及覆蓋四個全球區域的即時雲可用性，為GPT-OSS模型提供最全面的功能支持。開發者現在可以通過GroqCloud開始試用GPT-OSS模型，並查看開發者文檔以瞭解提示緩存的更多信息和最佳實踐。