2026-05-20 08:24 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Cerebras 将 Kimi K2.6 推理服务引入企业

Cerebras 开始为企业客户提供 Kimi K2.6 万亿参数开放权重模型的推理服务。该模型在编码和智能体任务上表现卓越，推理速度达到每秒 981 个 token，是GPU云服务的 6.7 倍，能够实现近乎实时的智能体开发，大幅提升开发者生产力。

来源Cerebras Blog

Cerebras 今日宣布，已开始在企业客户中试用 Kimi K2.6——领先的万亿参数开放权重模型。Kimi K2.6 在编码和智能体工作方面广受认可，是用户请求最多的模型之一。Cerebras 以其快速推理能力闻名，曾在 GLM-4.7、GPT-OSS-120B 和 Qwen 3 等多个开放权重模型上创下基准测试纪录，并为 OpenAI 和 Cognition 等客户在智能体编码模型上实现了显著加速。

据 Artificial Analysis 测量，Cerebras 运行 Kimi K2.6 时实现了每秒 981 个输出 token 的速度，比次快的 GPU 云服务快 6.7 倍，比推理供应商的中位数快 23 倍。对于包含提示处理、推理和生成 500 个输出 token 的 10,000 token 输入请求，Cerebras 在 5.6 秒内提供完整响应，而官方 Kimi 端点需要 163.7 秒——快了 29 倍。

Kimi K2.6 被广泛视为编码和智能体工作的领先开放权重模型。它在 SWE-Bench Pro 上达到 58.6%，超越 Claude Opus 4.6，与 GPT-5.4 持平，并在 Humanity's Last Exam 和 DeepSearchQA 等智能体基准测试中领先。开发者已将其采纳为闭源前沿模型的开源替代品，尤其用于编码——它对简洁前端设计的偏好使其成为全栈应用生成的热门选择。2.6 版本将这一能力从前端扩展到全栈工作流，包括身份验证、数据库操作和长期智能体执行。

Cerebras 晶圆级引擎专为大规模设计。一组 CS-3 系统可配置支持多万亿参数模型的训练和推理。Cerebras 在优化堆栈以高效服务大型模型方面投入了大量工程精力。该系统以原始 4 位权重存储 Kimi K2.6，同时以 16 位浮点进行计算以确保最佳精度。权重分布在多个晶圆上，激活值在晶圆间流式传输。层间通信完全使用片上网络结构，其带宽是 NVL72 上 NVLink 的 200 倍以上。结合自定义内核和推测解码，Cerebras 能够以接近每秒 1,000 token 的速度服务万亿参数 MoE 模型，创下世界纪录。

智能体编码已成为大语言模型最高价值的用例，也是对推理速度最敏感的工作负载。在接近每秒一千 token 的速度下，Kimi 生成代码的速度比 Claude Opus 等流行模型快一个数量级。开发者能够快速迭代、更快得到最终解决方案，并专注于单一任务，无需启动多个智能体并频繁切换。前端迭代感觉几乎是即时的，而代码重构和具有挑战性的漏洞修复能在极短时间内完成。

Cerebras 现已向企业客户提供 K2.6 的试用。如果用户正在运行智能体编码、深度研究或任何推理速度为瓶颈的生产 AI 工作负载，Cerebras 欢迎联系。