2026-06-05站内改写3 分钟阅读更新: 2026-06-05

Gemini 3.5 Flash 与 Kimi K2.6 在 Cerebras 上谁更快？

谷歌在 Google I/O 2026 上发布了以速度为核心的 Gemini 3.5 Flash，而 Cerebras 上的 Kimi K2.6 在推理速度上全面领先。本文从智能水平、输出速度、端到端响应、延迟和开闭源等维度进行了详细对比。

来源Cerebras Blog

在 Google I/O 2026 上，谷歌一反常态，没有推出以智能为核心的新旗舰模型，而是发布了 Gemini 3.5 Flash——一款首先为速度设计的模型。

随着模型能够处理更复杂的编码任务，完成提示所需的时间从几秒增长到几分钟，有时甚至数小时。因此，开发者正在寻找更快的推理选项。今年早些时候，OpenAI 和 Anthropic 都推出了其领先模型的高速变体，价格是基础模型的三倍。谷歌现在也加入了这一行列，将速度作为主打特性，而非事后考虑。

Cerebras 是高速推理领域的公认领导者，在 OpenAI、Kimi、GLM 和 Qwen 等模型系列中创下了速度纪录。今天，我们将谷歌最快的模型与运行在 Cerebras 上的 Kimi K2.6 进行正面交锋，看看哪个推理提供商能最快完成任务。

智能水平

Kimi K2.6 是 Moonshot AI 推出的万亿参数混合专家模型，每个 token 激活 320 亿参数。它是包括 MiMo V2.5、DeepSeek V4 和 GLM-5.1 在内的高性能开源模型中的佼佼者。它尤其擅长编码，特别是作为 Cursor 的 Composer 2.5 的基础模型。相比之下，Gemini 3.5 Flash 是一个闭源模型，规模未公开，设计运行在谷歌的 TPU 上。其智能略低于 Gemini 3.1 Pro，但首先为速度而设计。

Gemini 3.5 Flash 和 Kimi K2.6 是理想的比较对象，因为它们都属于接近前沿的模型类别。在人工智能分析智能指数（由十个基准组成）上，两者势均力敌，得分分别为 53.9（Kimi K2.6）和 55.3（Gemini 3.5 Flash）。在编码方面，Kimi K2.6 脱颖而出。它在 SWE-Bench Pro 上以 58.6% 的得分领先，而 Gemini 3.5 Flash 为 55.1%。

推理速度的主要衡量指标是输出 tokens/s。输出速度越快，模型完成编码任务的速度就越快。人工智能分析通过标准 10,000 token 输入进行测试，并测量输出 token 返回的速率。

Gemini 3.5 Flash 在该基准测试中达到 181 tokens/s，显著快于 Claude Opus 4.8 和 GPT-5.5 的约 60 tokens/s。但运行在 Cerebras 上的 Kimi K2.6 属于另一个类别。Cerebras 达到 981 输出 tokens/s——比 Gemini 3.5 Flash 快 5.4 倍。即使与谷歌自己的阶段性演示相比（其显示 Gemini 3.5 Flash 在下一代 TPU 上运行速度约为 280 tokens/s），Cerebras 仍然快三倍以上。这是通过将模型运行在 Cerebras 晶圆级引擎上实现的，该引擎将整个模型存储在芯片上，无需从外部内存加载。

端到端响应

更全面的速度衡量指标是端到端响应。它包括输入处理、任何思考或推理时间以及输出生成。在人工智能分析的测量中（10,000 输入 token，500 输出 token），Gemini 3.5 Flash 在 17.5 秒内完成任务。运行在 Cerebras 上的 Kimi K2.6 在 5.6 秒内完成。这表明，即使包含输入处理（在多轮编码任务中往往会增长），运行在 Cerebras 上的 Kimi K2.6 仍然能够在 3.5 Flash 所需时间的一小部分内完成任务。

延迟

语音代理越来越多地用于客户服务、教育和车载助手。延迟是最重要的指标，更高的延迟直接导致用户流失增加。当首次 token 时间达到 500ms 或更多时，对话开始感觉像对讲机。最智能的模型可能需要几秒钟才能响应，这导致开发者在语音应用中选择了智能较低的模型。

这种权衡已不再必要。在最新的多轮语音代理基准测试（aiewf-eval，由 Kwindla 提供）中，运行在 Cerebras 上的 Kimi K2.6 以 452ms 的首次 token 时间实现了该领域最低延迟——使其成为第一个足够快支持实时语音的前沿模型。这确实是一个首次：一个万亿参数模型在启用思维链推理的情况下突破了 500ms 的障碍。相比之下，谷歌全新发布、速度优化的 Gemini 3.5 Flash 为 960ms，Claude Sonnet 4.6 为 850ms。

开源与闭源

还有一个维度不会出现在基准图表上。Kimi K2.6 是开源的。其权重在修改后的 MIT 许可证下发布，因此你可以对其进行微调、检查，并在你选择的任何基础设施上运行，包括 Cerebras。Gemini 3.5 Flash 是闭源的，只能通过谷歌使用。即使模型开箱即用完全令人满意，也没有第二家供应商作为备份，使其依赖于单一提供商的定价、弃用计划和正常运行时间。

结论

每个基础模型构建商现在都在提供高速推理 API 端点。Gemini 3.5 Flash 是其中最快的，人工智能分析测量为 181 tokens/s。运行在 Cerebras 上的 Kimi K2.6 在智能上与其相当，输出速度是其五倍，端到端提示完成时间仅为其三分之一。此外，它是第一个足够快速支持实时语音的前沿模型。由于其开源权重，模型可以根据需要进行微调和部署。速度和智能——现在你在 Cerebras 上可以两者兼得。