AI News HubLIVE
站内改写2 分钟阅读

GroqCloud为GPT-OSS模型推出提示缓存与降价措施

Groq宣布对其GPT-OSS模型进行两项重要更新:降低价格和推出提示缓存功能,旨在提升AI推理的成本效益和速度。降价立即生效,并追溯至2025年10月所有未付款发票。提示缓存可带来高达50%的缓存令牌折扣、更低的延迟以及更高的速率限制,且无需任何配置。

来源Groq Blog

Groq今日宣布对其GPT-OSS模型系列进行两项重大改进:降低价格和引入提示缓存功能。这些更新旨在为开发者提供更高效、更经济的AI推理体验。

首先,GroqCloud上的GPT-OSS模型价格已全面下调。新价格即日生效,并将追溯应用于2025年10月所有未付款发票。这意味着开发者从现在起就能享受到更低的成本,同时过去的未结账单也将自动调整。

其次,提示缓存的推出是本次更新的亮点。该功能已在GPT-OSS-20B模型上悄然上线,并将在未来几周内推广至GPT-OSS-120B模型。提示缓存的工作原理是识别并重用最近请求中相同的令牌前缀。一旦命中缓存,开发者即可享受以下好处:

  • 缓存令牌获得50%的折扣:所有位于相同前缀中的输入令牌享受半价优惠,而第一个差异之后的令牌则按原价计费。
  • 显著降低延迟:对于共享相同令牌前缀的请求,响应速度大幅提升。
  • 速率限制更宽松:缓存令牌不占用GroqCloud的速率限制配额。
  • 零配置:所有API请求自动启用,无需任何代码修改。

以实际价格为例,GPT-OSS-120B模型未缓存令牌的输入价格为每百万令牌0.15美元,而缓存后仅需0.075美元;GPT-OSS-20B模型则从0.075美元降至0.0375美元。

Cluely公司的创始人工程师Guilherme Garibaldi表示:“我们专注于实时AI,延迟至关重要。我们已经在使用Groq处理最时效性的生成任务,而提示缓存不仅能加速我们的产品,还能开启全新的用例。在我们的生成中,平均92%的提示是重复使用的,因此提示缓存在速度和品质上都将带来革命性变化。”

提示缓存特别适用于具有稳定可重用提示组件的工作流。例如,RAG平台和数据应用中的长系统提示和检索模板可被缓存并跨查询重用;代理应用中的重复工具调用和样本示例可跨调用复用;评估管道中大规模数据集的相同提示可从缓存中服务;聊天机器人中持久的品牌风格和政策前言也可缓存并重用。

缓存机制采用前缀匹配,系统从最近的请求中识别匹配前缀。如果找到匹配前缀,则重用缓存计算,大幅降低延迟并将缓存部分的令牌成本降低50%。如果没有匹配,则正常处理提示,但前缀会暂时缓存以备将来匹配。所有缓存数据会在几小时内自动过期。

Groq还提供内置工具、响应API以及覆盖四个全球区域的即时云可用性,为GPT-OSS模型提供最全面的功能支持。开发者现在可以通过GroqCloud开始试用GPT-OSS模型,并查看开发者文档以了解提示缓存的更多信息和最佳实践。