AI News HubLIVE
站內改寫2 分鐘閱讀

GroqCloud為GPT-OSS模型推出提示快取與降價措施

Groq宣佈對其GPT-OSS模型進行兩項重要更新:降低價格和推出提示快取功能,旨在提升AI推理的成本效益和速度。降價立即生效,並追溯至2025年10月所有未付款發票。提示快取可帶來高達50%的快取令牌折扣、更低的延遲以及更高的速率限制,且無需任何配置。

來源Groq Blog

Groq今日宣佈對其GPT-OSS模型系列進行兩項重大改進:降低價格和引入提示快取功能。這些更新旨在為開發者提供更高效、更經濟的AI推理體驗。

首先,GroqCloud上的GPT-OSS模型價格已全面下調。新價格即日生效,並將追溯應用於2025年10月所有未付款發票。這意味著開發者從現在起就能享受到更低的成本,同時過去的未結賬單也將自動調整。

其次,提示快取的推出是本次更新的亮點。該功能已在GPT-OSS-20B模型上悄然上線,並將在未來幾周內推廣至GPT-OSS-120B模型。提示快取的工作原理是識別並重用最近請求中相同的令牌字首。一旦命中快取,開發者即可享受以下好處:

  • 快取令牌獲得50%的折扣:所有位於相同字首中的輸入令牌享受半價優惠,而第一個差異之後的令牌則按原價計費。
  • 顯著降低延遲:對於共享相同令牌字首的請求,響應速度大幅提升。
  • 速率限制更寬鬆:快取令牌不佔用GroqCloud的速率限制配額。
  • 零配置:所有API請求自動啟用,無需任何程式碼修改。

以實際價格為例,GPT-OSS-120B模型未快取令牌的輸入價格為每百萬令牌0.15美元,而快取後僅需0.075美元;GPT-OSS-20B模型則從0.075美元降至0.0375美元。

Cluely公司的創始人工程師Guilherme Garibaldi表示:“我們專注於即時AI,延遲至關重要。我們已經在使用Groq處理最時效性的生成任務,而提示快取不僅能加速我們的產品,還能開啟全新的用例。在我們的生成中,平均92%的提示是重複使用的,因此提示快取在速度和品質上都將帶來革命性變化。”

提示快取特別適用於具有穩定可重用提示元件的工作流。例如,RAG平臺和資料應用中的長系統提示和檢索模板可被快取並跨查詢重用;代理應用中的重複工具呼叫和樣本示例可跨呼叫複用;評估管道中大規模資料集的相同提示可從快取中服務;聊天機器人中持久的品牌風格和政策前言也可快取並重用。

快取機制採用字首匹配,系統從最近的請求中識別匹配字首。如果找到匹配字首,則重用快取計算,大幅降低延遲並將快取部分的令牌成本降低50%。如果沒有匹配,則正常處理提示,但字首會暫時快取以備將來匹配。所有快取資料會在幾小時內自動過期。

Groq還提供內建工具、響應API以及覆蓋四個全球區域的即時雲可用性,為GPT-OSS模型提供最全面的功能支援。開發者現在可以透過GroqCloud開始試用GPT-OSS模型,並檢視開發者文件以瞭解提示快取的更多資訊和最佳實踐。