GroqCloud為GPT-OSS模型推出提示緩存與降價措施
Groq宣佈對其GPT-OSS模型進行兩項重要更新:降低價格和推出提示緩存功能,旨在提升AI推理的成本效益和速度。降價立即生效,並追溯至2025年10月所有未付款發票。提示緩存可帶來高達50%的緩存令牌折扣、更低的延遲以及更高的速率限制,且無需任何配置。
Groq今日宣佈對其GPT-OSS模型系列進行兩項重大改進:降低價格和引入提示緩存功能。這些更新旨在為開發者提供更高效、更經濟的AI推理體驗。
首先,GroqCloud上的GPT-OSS模型價格已全面下調。新價格即日生效,並將追溯應用於2025年10月所有未付款發票。這意味着開發者從現在起就能享受到更低的成本,同時過去的未結賬單也將自動調整。
其次,提示緩存的推出是本次更新的亮點。該功能已在GPT-OSS-20B模型上悄然上線,並將在未來幾周內推廣至GPT-OSS-120B模型。提示緩存的工作原理是識別並重用最近請求中相同的令牌前綴。一旦命中緩存,開發者即可享受以下好處:
- 緩存令牌獲得50%的折扣:所有位於相同前綴中的輸入令牌享受半價優惠,而第一個差異之後的令牌則按原價計費。
- 顯著降低延遲:對於共享相同令牌前綴的請求,響應速度大幅提升。
- 速率限制更寬鬆:緩存令牌不佔用GroqCloud的速率限制配額。
- 零配置:所有API請求自動啓用,無需任何代碼修改。
以實際價格為例,GPT-OSS-120B模型未緩存令牌的輸入價格為每百萬令牌0.15美元,而緩存後僅需0.075美元;GPT-OSS-20B模型則從0.075美元降至0.0375美元。
Cluely公司的創始人工程師Guilherme Garibaldi表示:“我們專注於實時AI,延遲至關重要。我們已經在使用Groq處理最時效性的生成任務,而提示緩存不僅能加速我們的產品,還能開啓全新的用例。在我們的生成中,平均92%的提示是重複使用的,因此提示緩存在速度和品質上都將帶來革命性變化。”
提示緩存特別適用於具有穩定可重用提示組件的工作流。例如,RAG平台和數據應用中的長系統提示和檢索模板可被緩存並跨查詢重用;代理應用中的重複工具調用和樣本示例可跨調用複用;評估管道中大規模數據集的相同提示可從緩存中服務;聊天機器人中持久的品牌風格和政策前言也可緩存並重用。
緩存機制採用前綴匹配,系統從最近的請求中識別匹配前綴。如果找到匹配前綴,則重用緩存計算,大幅降低延遲並將緩存部分的令牌成本降低50%。如果沒有匹配,則正常處理提示,但前綴會暫時緩存以備將來匹配。所有緩存數據會在幾小時內自動過期。
Groq還提供內置工具、響應API以及覆蓋四個全球區域的即時雲可用性,為GPT-OSS模型提供最全面的功能支持。開發者現在可以通過GroqCloud開始試用GPT-OSS模型,並查看開發者文檔以瞭解提示緩存的更多信息和最佳實踐。