AI News HubLIVE
公开文章 9采集文章 10可信度 84刷新频率 120 分钟
健康状态 健康来源类型 官方原文权限 官方原文最近入库 2026-05-15ID groq-blog运行状态 已启用

Official AI inference platform blog; confirm reuse terms before full body display.

最新公开文章

GroqCloud Beta版推出远程MCP支持

GroqCloud宣布其远程模型上下文协议(MCP)服务器集成功能已进入Beta阶段,开发者可无缝连接外部工具,实现更快、更低成本的AI应用。该功能兼容OpenAI API,支持零代码迁移。

  • 远程MCP集成使AI模型能调用外部工具(如GitHub、浏览器、数据库等)。
  • 兼容OpenAI Responses API和远程MCP规范,迁移无需修改代码。
站内正文

GroqCloud为GPT-OSS模型推出提示缓存与降价措施

Groq宣布对其GPT-OSS模型进行两项重要更新:降低价格和推出提示缓存功能,旨在提升AI推理的成本效益和速度。降价立即生效,并追溯至2025年10月所有未付款发票。提示缓存可带来高达50%的缓存令牌折扣、更低的延迟以及更高的速率限制,且无需任何配置。

  • GPT-OSS模型降价,立即生效并追溯至2025年10月。
  • 推出提示缓存,缓存令牌享50%折扣,降低延迟。
站内正文

产品内集成LLM:实用现场指南

本文基于实践经验,介绍如何将开源LLM可靠地集成到产品中。核心是四步循环:读取(仅取必要上下文)、约束(明确系统和格式规则)、执行(结构化输出、函数调用或纯文本)、解释(向用户展示步骤和引用)。还涵盖常见模式(路由器、提取器、翻译器等)、安全发布(测试、监控、回退)及常见陷阱。目标是打造用户无感知、可靠的AI特性。

  • 最佳AI特性往往是隐形的,用户无需意识到AI的存在即可完成任务。
  • 核心工作流是四步循环:读取、约束、执行、解释。
站内正文

OpenAI 开放安全模型首发支持

GroqCloud 宣布即日起支持 OpenAI 最新开源安全模型 GPT-OSS-Safeguard-20B,提供超过 1000 t/s 的推理速度。该模型专为安全分类工作负载设计,支持用户自定义策略、可配置推理力度及完整推理轨迹,适用于企业文档扫描、AI 聊天机器人、政策审计和用户生成内容平台等场景。定价与基础 GPT-OSS-20B 相同,输入 token $0.075/M,输出 token $0.30/M。

  • OpenAI 发布全新开源安全模型 GPT-OSS-Safeguard-20B,基于 GPT-OSS-20B 微调。
  • GroqCloud 提供首发支持,推理速度超过 1000 t/s。
站内正文

GroqCloud 推出远程 MCP 支持测试版

Groq 宣布在 GroqCloud 上推出 MCP 连接器测试版,率先支持 Google Workspace(Gmail、云端硬盘和日历)。这些预建的 MCP 服务器由 Groq 托管,使 AI 代理能够通过 Responses API 与 Google 工具交互,而无需管理自己的 MCP 服务器。

  • GroqCloud 推出 MCP 连接器测试版,率先支持 Google Workspace。
  • 提供即插即用兼容性,零部署负担,低延迟和低成本。
站内正文

Groq 被 2025 年 Gartner® AI 基础架构酷供应商报告收录

Groq 凭借其 LPU 芯片的确定性、低延迟推理和线性扩展能力,被 Gartner 评为 2025 年 AI 基础架构领域的酷供应商。超过 250 万开发者使用 Groq,其性能比 GPU 快 5 倍且成本更低。

  • Groq 的 LPU 提供确定性、低延迟推理,线性扩展,与 GPU 不同。
  • 该认可凸显了 Groq 在实时 AI 应用基础架构中的独特地位。
站内正文

推动美国人工智能堆栈发展

文章讨论了美国在人工智能计算领域的领导地位,特别是推理计算的重要性,以及如何通过出口政策维持优势。强调了市场驱动的生态系统和行业联盟的作用,建议采用灵活的多模型框架。

  • 美国在AI计算领域占据主导地位,控制全球74%的高端训练计算能力。
  • 推理计算成为AI部署的关键瓶颈,其需求正迅速增长。
站内正文

GroqCloud:扩展以满足需求

GroqCloud正在全球扩展其AI推理基础设施,以应对实时应用从实验转向生产带来的需求增长。最近在英国新建的数据中心,与Equinix合作,为欧洲开发者和企业提供低延迟、高性能的推理服务。GroqCloud现已拥有超过350万开发者,生产流量持续增长。

  • GroqCloud开发者数量超过350万,生产流量持续增长。
  • 在英国新建数据中心,与Equinix合作,扩展欧洲业务。
站内正文

深度解析 LPU:Groq 速度背后的秘密

Groq 的 LPU 是专为推理设计的硬件,通过 TruePoint 数字、SRAM 存储、静态调度和实时张量并行等技术,在不牺牲精度的情况下实现超低延迟推理。Moonshot 的 Kimi K2 模型在 Groq 上以 40 倍性能运行,展示了 LPU 架构的优势。

  • LPU 为推理而生,消除了准确性与速度之间的权衡
  • TruePoint 数字技术通过选择性精度降低,在保持精度的同时实现 2-4 倍加速
站内正文

全部来源