2026-06-18站内改写2 分钟阅读更新: 2026-06-18

Cerebras 上的 Gemma 4——最快的推理现已多模态

Gemma 4 现已在 Cerebras Inference 上私人预览，本月晚些时候全面可用。该多模态模型在 Cerebras 上以超过每秒1500 tokens的速度运行，支持计算机使用和图像驱动的智能体工作流，比 Claude Haiku 快15倍。

来源Cerebras Blog

Cerebras 团队宣布，Gemma 4 现已在 Cerebras Inference 上私人预览，并将于本月晚些时候全面可用。这是 Cerebras 推理平台首次支持多模态模型，为开发者开启了全新的应用领域，包括计算机使用和图像驱动的智能体工作流，所有操作均以超过每秒1500 tokens的速度运行。

作为快速推理领域的领导者，Cerebras 已在众多开放权重模型上设定了基准，包括 Kimi、GLM、GPT-OSS 和 Qwen。Gemma 4 是 Cerebras 平台引入的第一个 Google DeepMind 模型，也是第一个允许开发者将图像——截图、文档、图表、用户界面状态——输入到以晶圆级速度运行的模型中的模型。结果是：视觉和智能体循环曾经在 GPU 上感觉迟缓，现在变得快速而响应灵敏。

Cerebras 以超过1500输出 tokens/s 的速度运行 Gemma 4。相比之下，Claude Haiku 的运行速度大约为100 tokens/s。这意味着在质量相当且每个输出 token 价格更低的情况下，速度提升了15倍。速度在多模态和智能体工作负载中尤为关键，这些工作负载通常需要多次调用模型。在100 tokens/s 的速度下，这些循环太慢，无法提供实时输入。而在1500 TPS 下，应用和用户可以同时协作，前端迭代几乎瞬时完成，文档和截图工作流在更短的时间内返回，开发者可以在同一产品中实现更多的验证和重试。

Gemma 4 31B 是 Google DeepMind 开放权重 Gemma 系列的旗舰模型——一个密集的多模态模型，专为质量和效率而设计，而非原始参数数量。密集模型在不牺牲 MoE 模型的大内存占用情况下实现了高模型智能。Gemma 4 找到了一个最佳平衡点：足够强大用于严肃工作，高效服务，并且足够开放以支持构建而不受供应商锁定。在 Artificial Analysis Intelligence Index 上，Gemma 4 31B 得分为29，实际上与 Claude Haiku 的30相匹配。区别在于 Gemma 4 在 Apache 2.0 下开放权重，并且在 Cerebras 上运行速度快一个数量级。

Gemma 4 是 Cerebras 上第一个支持图像理解的模型。它支持结合文本和图像的工作流——截图、图表、用户界面状态、扫描页面、表单、图表。它还开启了计算机使用和机器人应用的可能性。将视觉带到晶圆级硬件是平台的一个里程碑。多模态支持从 Gemma 4 开始，未来将扩展到更多模型。图像理解与晶圆级速度的结合解锁了新的产品体验：一个模型可以看到仪表盘，进行推理，返回结构化输出，并足够快地采取行动，以保持人类或智能体在循环中。

具体应用示例包括：截图洞察：将密集的仪表盘截图或文档页面输入模型，实时识别重要内容，解释发现，并返回结构化输出。长文本摘要：输入研究报告或技术简报，快速获得清晰、可决策的摘要，足以在一次会话中阅读、反应和重新查询。截图到补丁：利用中等模型的优势，输入有问题的 UI 截图、源代码和控制台错误，返回最小的补丁和验证检查。

Gemma 4 于6月18日进入 Cerebras 上的私人预览，全面可用预计在本月底。Cerebras 推荐将其作为平台上的参考中等规模模型：如果您正在从 Llama、GPT-OSS 或 Haiku 迁移，Gemma 4 在 Cerebras 速度下提供同等或更高的智能。如果您正在构建多模态推理、文档理解、快速摘要或定向编码工作流，并且推理速度是瓶颈，Cerebras 欢迎您的反馈。