Gemini 3.5 Flash 与 Kimi K2.6 在 Cerebras 上谁更快?
谷歌在 Google I/O 2026 上发布了以速度为核心的 Gemini 3.5 Flash,而 Cerebras 上的 Kimi K2.6 在推理速度上全面领先。本文从智能水平、输出速度、端到端响应、延迟和开闭源等维度进行了详细对比。
在 Google I/O 2026 上,谷歌一反常态,没有推出以智能为核心的新旗舰模型,而是发布了 Gemini 3.5 Flash——一款首先为速度设计的模型。
随着模型能够处理更复杂的编码任务,完成提示所需的时间从几秒增长到几分钟,有时甚至数小时。因此,开发者正在寻找更快的推理选项。今年早些时候,OpenAI 和 Anthropic 都推出了其领先模型的高速变体,价格是基础模型的三倍。谷歌现在也加入了这一行列,将速度作为主打特性,而非事后考虑。
Cerebras 是高速推理领域的公认领导者,在 OpenAI、Kimi、GLM 和 Qwen 等模型系列中创下了速度纪录。今天,我们将谷歌最快的模型与运行在 Cerebras 上的 Kimi K2.6 进行正面交锋,看看哪个推理提供商能最快完成任务。
智能水平
Kimi K2.6 是 Moonshot AI 推出的万亿参数混合专家模型,每个 token 激活 320 亿参数。它是包括 MiMo V2.5、DeepSeek V4 和 GLM-5.1 在内的高性能开源模型中的佼佼者。它尤其擅长编码,特别是作为 Cursor 的 Composer 2.5 的基础模型。相比之下,Gemini 3.5 Flash 是一个闭源模型,规模未公开,设计运行在谷歌的 TPU 上。其智能略低于 Gemini 3.1 Pro,但首先为速度而设计。
Gemini 3.5 Flash 和 Kimi K2.6 是理想的比较对象,因为它们都属于接近前沿的模型类别。在人工智能分析智能指数(由十个基准组成)上,两者势均力敌,得分分别为 53.9(Kimi K2.6)和 55.3(Gemini 3.5 Flash)。在编码方面,Kimi K2.6 脱颖而出。它在 SWE-Bench Pro 上以 58.6% 的得分领先,而 Gemini 3.5 Flash 为 55.1%。
推理速度的主要衡量指标是输出 tokens/s。输出速度越快,模型完成编码任务的速度就越快。人工智能分析通过标准 10,000 token 输入进行测试,并测量输出 token 返回的速率。
Gemini 3.5 Flash 在该基准测试中达到 181 tokens/s,显著快于 Claude Opus 4.8 和 GPT-5.5 的约 60 tokens/s。但运行在 Cerebras 上的 Kimi K2.6 属于另一个类别。Cerebras 达到 981 输出 tokens/s——比 Gemini 3.5 Flash 快 5.4 倍。即使与谷歌自己的阶段性演示相比(其显示 Gemini 3.5 Flash 在下一代 TPU 上运行速度约为 280 tokens/s),Cerebras 仍然快三倍以上。这是通过将模型运行在 Cerebras 晶圆级引擎上实现的,该引擎将整个模型存储在芯片上,无需从外部内存加载。
端到端响应
更全面的速度衡量指标是端到端响应。它包括输入处理、任何思考或推理时间以及输出生成。在人工智能分析的测量中(10,000 输入 token,500 输出 token),Gemini 3.5 Flash 在 17.5 秒内完成任务。运行在 Cerebras 上的 Kimi K2.6 在 5.6 秒内完成。这表明,即使包含输入处理(在多轮编码任务中往往会增长),运行在 Cerebras 上的 Kimi K2.6 仍然能够在 3.5 Flash 所需时间的一小部分内完成任务。
延迟
语音代理越来越多地用于客户服务、教育和车载助手。延迟是最重要的指标,更高的延迟直接导致用户流失增加。当首次 token 时间达到 500ms 或更多时,对话开始感觉像对讲机。最智能的模型可能需要几秒钟才能响应,这导致开发者在语音应用中选择了智能较低的模型。
这种权衡已不再必要。在最新的多轮语音代理基准测试(aiewf-eval,由 Kwindla 提供)中,运行在 Cerebras 上的 Kimi K2.6 以 452ms 的首次 token 时间实现了该领域最低延迟——使其成为第一个足够快支持实时语音的前沿模型。这确实是一个首次:一个万亿参数模型在启用思维链推理的情况下突破了 500ms 的障碍。相比之下,谷歌全新发布、速度优化的 Gemini 3.5 Flash 为 960ms,Claude Sonnet 4.6 为 850ms。
开源与闭源
还有一个维度不会出现在基准图表上。Kimi K2.6 是开源的。其权重在修改后的 MIT 许可证下发布,因此你可以对其进行微调、检查,并在你选择的任何基础设施上运行,包括 Cerebras。Gemini 3.5 Flash 是闭源的,只能通过谷歌使用。即使模型开箱即用完全令人满意,也没有第二家供应商作为备份,使其依赖于单一提供商的定价、弃用计划和正常运行时间。
结论
每个基础模型构建商现在都在提供高速推理 API 端点。Gemini 3.5 Flash 是其中最快的,人工智能分析测量为 181 tokens/s。运行在 Cerebras 上的 Kimi K2.6 在智能上与其相当,输出速度是其五倍,端到端提示完成时间仅为其三分之一。此外,它是第一个足够快速支持实时语音的前沿模型。由于其开源权重,模型可以根据需要进行微调和部署。速度和智能——现在你在 Cerebras 上可以两者兼得。