Groq Blog AI 新闻来源

公开文章 9采集文章 10可信度 84刷新频率 120 分钟

健康状态健康来源类型官方原文权限 官方原文最近入库 2026-05-15ID groq-blog运行状态 已启用

Official AI inference platform blog; confirm reuse terms before full body display.

最新公开文章

GroqCloud Beta版推出远程MCP支持

2026-05-15 10:17 UTC+8

GroqCloud宣布其远程模型上下文协议（MCP）服务器集成功能已进入Beta阶段，开发者可无缝连接外部工具，实现更快、更低成本的AI应用。该功能兼容OpenAI API，支持零代码迁移。

远程MCP集成使AI模型能调用外部工具（如GitHub、浏览器、数据库等）。
兼容OpenAI Responses API和远程MCP规范，迁移无需修改代码。

GroqCloud为GPT-OSS模型推出提示缓存与降价措施

2026-05-15 10:16 UTC+8

Groq宣布对其GPT-OSS模型进行两项重要更新：降低价格和推出提示缓存功能，旨在提升AI推理的成本效益和速度。降价立即生效，并追溯至2025年10月所有未付款发票。提示缓存可带来高达50%的缓存令牌折扣、更低的延迟以及更高的速率限制，且无需任何配置。

GPT-OSS模型降价，立即生效并追溯至2025年10月。
推出提示缓存，缓存令牌享50%折扣，降低延迟。

产品内集成LLM：实用现场指南

2026-05-15 10:16 UTC+8

本文基于实践经验，介绍如何将开源LLM可靠地集成到产品中。核心是四步循环：读取（仅取必要上下文）、约束（明确系统和格式规则）、执行（结构化输出、函数调用或纯文本）、解释（向用户展示步骤和引用）。还涵盖常见模式（路由器、提取器、翻译器等）、安全发布（测试、监控、回退）及常见陷阱。目标是打造用户无感知、可靠的AI特性。

最佳AI特性往往是隐形的，用户无需意识到AI的存在即可完成任务。
核心工作流是四步循环：读取、约束、执行、解释。

GroqCloud 宣布即日起支持 OpenAI 最新开源安全模型 GPT-OSS-Safeguard-20B，提供超过 1000 t/s 的推理速度。该模型专为安全分类工作负载设计，支持用户自定义策略、可配置推理力度及完整推理轨迹，适用于企业文档扫描、AI 聊天机器人、政策审计和用户生成内容平台等场景。定价与基础 GPT-OSS-20B 相同，输入 token $0.075/M，输出 token $0.30/M。

OpenAI 发布全新开源安全模型 GPT-OSS-Safeguard-20B，基于 GPT-OSS-20B 微调。
GroqCloud 提供首发支持，推理速度超过 1000 t/s。

GroqCloud 推出远程 MCP 支持测试版

2026-05-15 10:15 UTC+8

Groq 宣布在 GroqCloud 上推出 MCP 连接器测试版，率先支持 Google Workspace（Gmail、云端硬盘和日历）。这些预建的 MCP 服务器由 Groq 托管，使 AI 代理能够通过 Responses API 与 Google 工具交互，而无需管理自己的 MCP 服务器。

GroqCloud 推出 MCP 连接器测试版，率先支持 Google Workspace。
提供即插即用兼容性，零部署负担，低延迟和低成本。

Groq 被 2025 年 Gartner® AI 基础架构酷供应商报告收录

2026-05-15 10:14 UTC+8

Groq 凭借其 LPU 芯片的确定性、低延迟推理和线性扩展能力，被 Gartner 评为 2025 年 AI 基础架构领域的酷供应商。超过 250 万开发者使用 Groq，其性能比 GPU 快 5 倍且成本更低。

Groq 的 LPU 提供确定性、低延迟推理，线性扩展，与 GPU 不同。
该认可凸显了 Groq 在实时 AI 应用基础架构中的独特地位。

推动美国人工智能堆栈发展

2026-05-15 10:14 UTC+8

文章讨论了美国在人工智能计算领域的领导地位，特别是推理计算的重要性，以及如何通过出口政策维持优势。强调了市场驱动的生态系统和行业联盟的作用，建议采用灵活的多模型框架。

美国在AI计算领域占据主导地位，控制全球74%的高端训练计算能力。
推理计算成为AI部署的关键瓶颈，其需求正迅速增长。

GroqCloud：扩展以满足需求

2026-05-15 10:13 UTC+8

GroqCloud正在全球扩展其AI推理基础设施，以应对实时应用从实验转向生产带来的需求增长。最近在英国新建的数据中心，与Equinix合作，为欧洲开发者和企业提供低延迟、高性能的推理服务。GroqCloud现已拥有超过350万开发者，生产流量持续增长。

GroqCloud开发者数量超过350万，生产流量持续增长。
在英国新建数据中心，与Equinix合作，扩展欧洲业务。

深度解析 LPU：Groq 速度背后的秘密

2026-05-15 10:12 UTC+8

Groq 的 LPU 是专为推理设计的硬件，通过 TruePoint 数字、SRAM 存储、静态调度和实时张量并行等技术，在不牺牲精度的情况下实现超低延迟推理。Moonshot 的 Kimi K2 模型在 Groq 上以 40 倍性能运行，展示了 LPU 架构的优势。

LPU 为推理而生，消除了准确性与速度之间的权衡
TruePoint 数字技术通过选择性精度降低，在保持精度的同时实现 2-4 倍加速

Groq Blog