2026-05-15 10:16 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

GroqCloud為GPT-OSS模型推出提示快取與降價措施

Groq宣佈對其GPT-OSS模型進行兩項重要更新：降低價格和推出提示快取功能，旨在提升AI推理的成本效益和速度。降價立即生效，並追溯至2025年10月所有未付款發票。提示快取可帶來高達50%的快取令牌折扣、更低的延遲以及更高的速率限制，且無需任何配置。

來源Groq Blog

Groq今日宣佈對其GPT-OSS模型系列進行兩項重大改進：降低價格和引入提示快取功能。這些更新旨在為開發者提供更高效、更經濟的AI推理體驗。

首先，GroqCloud上的GPT-OSS模型價格已全面下調。新價格即日生效，並將追溯應用於2025年10月所有未付款發票。這意味著開發者從現在起就能享受到更低的成本，同時過去的未結賬單也將自動調整。

其次，提示快取的推出是本次更新的亮點。該功能已在GPT-OSS-20B模型上悄然上線，並將在未來幾周內推廣至GPT-OSS-120B模型。提示快取的工作原理是識別並重用最近請求中相同的令牌字首。一旦命中快取，開發者即可享受以下好處：

快取令牌獲得50%的折扣：所有位於相同字首中的輸入令牌享受半價優惠，而第一個差異之後的令牌則按原價計費。
顯著降低延遲：對於共享相同令牌字首的請求，響應速度大幅提升。
速率限制更寬鬆：快取令牌不佔用GroqCloud的速率限制配額。
零配置：所有API請求自動啟用，無需任何程式碼修改。

以實際價格為例，GPT-OSS-120B模型未快取令牌的輸入價格為每百萬令牌0.15美元，而快取後僅需0.075美元；GPT-OSS-20B模型則從0.075美元降至0.0375美元。

Cluely公司的創始人工程師Guilherme Garibaldi表示：“我們專注於即時AI，延遲至關重要。我們已經在使用Groq處理最時效性的生成任務，而提示快取不僅能加速我們的產品，還能開啟全新的用例。在我們的生成中，平均92%的提示是重複使用的，因此提示快取在速度和品質上都將帶來革命性變化。”

提示快取特別適用於具有穩定可重用提示元件的工作流。例如，RAG平臺和資料應用中的長系統提示和檢索模板可被快取並跨查詢重用；代理應用中的重複工具呼叫和樣本示例可跨呼叫複用；評估管道中大規模資料集的相同提示可從快取中服務；聊天機器人中持久的品牌風格和政策前言也可快取並重用。

快取機制採用字首匹配，系統從最近的請求中識別匹配字首。如果找到匹配字首，則重用快取計算，大幅降低延遲並將快取部分的令牌成本降低50%。如果沒有匹配，則正常處理提示，但字首會暫時快取以備將來匹配。所有快取資料會在幾小時內自動過期。

Groq還提供內建工具、響應API以及覆蓋四個全球區域的即時雲可用性，為GPT-OSS模型提供最全面的功能支援。開發者現在可以透過GroqCloud開始試用GPT-OSS模型，並檢視開發者文件以瞭解提示快取的更多資訊和最佳實踐。