AI News HubLIVE
公開文章 9採集文章 10可信度 84刷新頻率 120 分鐘
健康狀態 健康來源類型 官方原文權限 官方原文最近入庫 2026-05-15ID groq-blog運行狀態 已啟用

Official AI inference platform blog; confirm reuse terms before full body display.

最新公開文章

GroqCloud Beta版推出遠程MCP支持

GroqCloud宣佈其遠程模型上下文協議(MCP)服務器集成功能已進入Beta階段,開發者可無縫連接外部工具,實現更快、更低成本的AI應用。該功能兼容OpenAI API,支持零代碼遷移。

  • 遠程MCP集成使AI模型能調用外部工具(如GitHub、瀏覽器、數據庫等)。
  • 兼容OpenAI Responses API和遠程MCP規範,遷移無需修改代碼。
站內正文

GroqCloud為GPT-OSS模型推出提示緩存與降價措施

Groq宣佈對其GPT-OSS模型進行兩項重要更新:降低價格和推出提示緩存功能,旨在提升AI推理的成本效益和速度。降價立即生效,並追溯至2025年10月所有未付款發票。提示緩存可帶來高達50%的緩存令牌折扣、更低的延遲以及更高的速率限制,且無需任何配置。

  • GPT-OSS模型降價,立即生效並追溯至2025年10月。
  • 推出提示緩存,緩存令牌享50%折扣,降低延遲。
站內正文

產品內集成LLM:實用現場指南

本文基於實踐經驗,介紹如何將開源LLM可靠地集成到產品中。核心是四步循環:讀取(僅取必要上下文)、約束(明確系統和格式規則)、執行(結構化輸出、函數調用或純文本)、解釋(向用户展示步驟和引用)。還涵蓋常見模式(路由器、提取器、翻譯器等)、安全發佈(測試、監控、回退)及常見陷阱。目標是打造用户無感知、可靠的AI特性。

  • 最佳AI特性往往是隱形的,用户無需意識到AI的存在即可完成任務。
  • 核心工作流是四步循環:讀取、約束、執行、解釋。
站內正文

OpenAI 開放安全模型首發支持

GroqCloud 宣佈即日起支持 OpenAI 最新開源安全模型 GPT-OSS-Safeguard-20B,提供超過 1000 t/s 的推理速度。該模型專為安全分類工作負載設計,支持用户自定義策略、可配置推理力度及完整推理軌跡,適用於企業文檔掃描、AI 聊天機器人、政策審計和用户生成內容平台等場景。定價與基礎 GPT-OSS-20B 相同,輸入 token $0.075/M,輸出 token $0.30/M。

  • OpenAI 發佈全新開源安全模型 GPT-OSS-Safeguard-20B,基於 GPT-OSS-20B 微調。
  • GroqCloud 提供首發支持,推理速度超過 1000 t/s。
站內正文

GroqCloud 推出遠程 MCP 支持測試版

Groq 宣佈在 GroqCloud 上推出 MCP 連接器測試版,率先支持 Google Workspace(Gmail、雲端硬盤和日曆)。這些預建的 MCP 服務器由 Groq 託管,使 AI 代理能夠通過 Responses API 與 Google 工具交互,而無需管理自己的 MCP 服務器。

  • GroqCloud 推出 MCP 連接器測試版,率先支持 Google Workspace。
  • 提供即插即用兼容性,零部署負擔,低延遲和低成本。
站內正文

Groq 被 2025 年 Gartner® AI 基礎架構酷供應商報告收錄

Groq 憑藉其 LPU 芯片的確定性、低延遲推理和線性擴展能力,被 Gartner 評為 2025 年 AI 基礎架構領域的酷供應商。超過 250 萬開發者使用 Groq,其性能比 GPU 快 5 倍且成本更低。

  • Groq 的 LPU 提供確定性、低延遲推理,線性擴展,與 GPU 不同。
  • 該認可凸顯了 Groq 在實時 AI 應用基礎架構中的獨特地位。
站內正文

推動美國人工智能堆棧發展

文章討論了美國在人工智能計算領域的領導地位,特別是推理計算的重要性,以及如何通過出口政策維持優勢。強調了市場驅動的生態系統和行業聯盟的作用,建議採用靈活的多模型框架。

  • 美國在AI計算領域佔據主導地位,控制全球74%的高端訓練計算能力。
  • 推理計算成為AI部署的關鍵瓶頸,其需求正迅速增長。
站內正文

GroqCloud:擴展以滿足需求

GroqCloud正在全球擴展其AI推理基礎設施,以應對實時應用從實驗轉向生產帶來的需求增長。最近在英國新建的數據中心,與Equinix合作,為歐洲開發者和企業提供低延遲、高性能的推理服務。GroqCloud現已擁有超過350萬開發者,生產流量持續增長。

  • GroqCloud開發者數量超過350萬,生產流量持續增長。
  • 在英國新建數據中心,與Equinix合作,擴展歐洲業務。
站內正文

深度解析 LPU:Groq 速度背後的秘密

Groq 的 LPU 是專為推理設計的硬件,通過 TruePoint 數字、SRAM 存儲、靜態調度和實時張量並行等技術,在不犧牲精度的情況下實現超低延遲推理。Moonshot 的 Kimi K2 模型在 Groq 上以 40 倍性能運行,展示了 LPU 架構的優勢。

  • LPU 為推理而生,消除了準確性與速度之間的權衡
  • TruePoint 數字技術通過選擇性精度降低,在保持精度的同時實現 2-4 倍加速
站內正文

全部來源