Cerebras 上的 Gemma 4——最快的推理现已多模态
Gemma 4 现已在 Cerebras Inference 上私人预览,本月晚些时候全面可用。该多模态模型在 Cerebras 上以超过每秒1500 tokens的速度运行,支持计算机使用和图像驱动的智能体工作流,比 Claude Haiku 快15倍。
Cerebras 团队宣布,Gemma 4 现已在 Cerebras Inference 上私人预览,并将于本月晚些时候全面可用。这是 Cerebras 推理平台首次支持多模态模型,为开发者开启了全新的应用领域,包括计算机使用和图像驱动的智能体工作流,所有操作均以超过每秒1500 tokens的速度运行。
作为快速推理领域的领导者,Cerebras 已在众多开放权重模型上设定了基准,包括 Kimi、GLM、GPT-OSS 和 Qwen。Gemma 4 是 Cerebras 平台引入的第一个 Google DeepMind 模型,也是第一个允许开发者将图像——截图、文档、图表、用户界面状态——输入到以晶圆级速度运行的模型中的模型。结果是:视觉和智能体循环曾经在 GPU 上感觉迟缓,现在变得快速而响应灵敏。
Cerebras 以超过1500输出 tokens/s 的速度运行 Gemma 4。相比之下,Claude Haiku 的运行速度大约为100 tokens/s。这意味着在质量相当且每个输出 token 价格更低的情况下,速度提升了15倍。速度在多模态和智能体工作负载中尤为关键,这些工作负载通常需要多次调用模型。在100 tokens/s 的速度下,这些循环太慢,无法提供实时输入。而在1500 TPS 下,应用和用户可以同时协作,前端迭代几乎瞬时完成,文档和截图工作流在更短的时间内返回,开发者可以在同一产品中实现更多的验证和重试。
Gemma 4 31B 是 Google DeepMind 开放权重 Gemma 系列的旗舰模型——一个密集的多模态模型,专为质量和效率而设计,而非原始参数数量。密集模型在不牺牲 MoE 模型的大内存占用情况下实现了高模型智能。Gemma 4 找到了一个最佳平衡点:足够强大用于严肃工作,高效服务,并且足够开放以支持构建而不受供应商锁定。在 Artificial Analysis Intelligence Index 上,Gemma 4 31B 得分为29,实际上与 Claude Haiku 的30相匹配。区别在于 Gemma 4 在 Apache 2.0 下开放权重,并且在 Cerebras 上运行速度快一个数量级。
Gemma 4 是 Cerebras 上第一个支持图像理解的模型。它支持结合文本和图像的工作流——截图、图表、用户界面状态、扫描页面、表单、图表。它还开启了计算机使用和机器人应用的可能性。将视觉带到晶圆级硬件是平台的一个里程碑。多模态支持从 Gemma 4 开始,未来将扩展到更多模型。图像理解与晶圆级速度的结合解锁了新的产品体验:一个模型可以看到仪表盘,进行推理,返回结构化输出,并足够快地采取行动,以保持人类或智能体在循环中。
具体应用示例包括:截图洞察:将密集的仪表盘截图或文档页面输入模型,实时识别重要内容,解释发现,并返回结构化输出。长文本摘要:输入研究报告或技术简报,快速获得清晰、可决策的摘要,足以在一次会话中阅读、反应和重新查询。截图到补丁:利用中等模型的优势,输入有问题的 UI 截图、源代码和控制台错误,返回最小的补丁和验证检查。
Gemma 4 于6月18日进入 Cerebras 上的私人预览,全面可用预计在本月底。Cerebras 推荐将其作为平台上的参考中等规模模型:如果您正在从 Llama、GPT-OSS 或 Haiku 迁移,Gemma 4 在 Cerebras 速度下提供同等或更高的智能。如果您正在构建多模态推理、文档理解、快速摘要或定向编码工作流,并且推理速度是瓶颈,Cerebras 欢迎您的反馈。