2026-05-15 10:16 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

GroqCloud为GPT-OSS模型推出提示缓存与降价措施

Groq宣布对其GPT-OSS模型进行两项重要更新：降低价格和推出提示缓存功能，旨在提升AI推理的成本效益和速度。降价立即生效，并追溯至2025年10月所有未付款发票。提示缓存可带来高达50%的缓存令牌折扣、更低的延迟以及更高的速率限制，且无需任何配置。

来源Groq Blog

Groq今日宣布对其GPT-OSS模型系列进行两项重大改进：降低价格和引入提示缓存功能。这些更新旨在为开发者提供更高效、更经济的AI推理体验。

首先，GroqCloud上的GPT-OSS模型价格已全面下调。新价格即日生效，并将追溯应用于2025年10月所有未付款发票。这意味着开发者从现在起就能享受到更低的成本，同时过去的未结账单也将自动调整。

其次，提示缓存的推出是本次更新的亮点。该功能已在GPT-OSS-20B模型上悄然上线，并将在未来几周内推广至GPT-OSS-120B模型。提示缓存的工作原理是识别并重用最近请求中相同的令牌前缀。一旦命中缓存，开发者即可享受以下好处：

缓存令牌获得50%的折扣：所有位于相同前缀中的输入令牌享受半价优惠，而第一个差异之后的令牌则按原价计费。
显著降低延迟：对于共享相同令牌前缀的请求，响应速度大幅提升。
速率限制更宽松：缓存令牌不占用GroqCloud的速率限制配额。
零配置：所有API请求自动启用，无需任何代码修改。

以实际价格为例，GPT-OSS-120B模型未缓存令牌的输入价格为每百万令牌0.15美元，而缓存后仅需0.075美元；GPT-OSS-20B模型则从0.075美元降至0.0375美元。

Cluely公司的创始人工程师Guilherme Garibaldi表示：“我们专注于实时AI，延迟至关重要。我们已经在使用Groq处理最时效性的生成任务，而提示缓存不仅能加速我们的产品，还能开启全新的用例。在我们的生成中，平均92%的提示是重复使用的，因此提示缓存在速度和品质上都将带来革命性变化。”

提示缓存特别适用于具有稳定可重用提示组件的工作流。例如，RAG平台和数据应用中的长系统提示和检索模板可被缓存并跨查询重用；代理应用中的重复工具调用和样本示例可跨调用复用；评估管道中大规模数据集的相同提示可从缓存中服务；聊天机器人中持久的品牌风格和政策前言也可缓存并重用。

缓存机制采用前缀匹配，系统从最近的请求中识别匹配前缀。如果找到匹配前缀，则重用缓存计算，大幅降低延迟并将缓存部分的令牌成本降低50%。如果没有匹配，则正常处理提示，但前缀会暂时缓存以备将来匹配。所有缓存数据会在几小时内自动过期。

Groq还提供内置工具、响应API以及覆盖四个全球区域的即时云可用性，为GPT-OSS模型提供最全面的功能支持。开发者现在可以通过GroqCloud开始试用GPT-OSS模型，并查看开发者文档以了解提示缓存的更多信息和最佳实践。