2026-06-05站内改写3 分鐘閱讀更新: 2026-06-05

Gemini 3.5 Flash 與 Kimi K2.6 在 Cerebras 上誰更快？

谷歌在 Google I/O 2026 上釋出了以速度為核心的 Gemini 3.5 Flash，而 Cerebras 上的 Kimi K2.6 在推理速度上全面領先。本文從智慧水平、輸出速度、端到端響應、延遲和開閉源等維度進行了詳細對比。

來源Cerebras Blog

在 Google I/O 2026 上，谷歌一反常態，沒有推出以智慧為核心的新旗艦模型，而是釋出了 Gemini 3.5 Flash——一款首先為速度設計的模型。

隨著模型能夠處理更復雜的編碼任務，完成提示所需的時間從幾秒增長到幾分鐘，有時甚至數小時。因此，開發者正在尋找更快的推理選項。今年早些時候，OpenAI 和 Anthropic 都推出了其領先模型的高速變體，價格是基礎模型的三倍。谷歌現在也加入了這一行列，將速度作為主打特性，而非事後考慮。

Cerebras 是高速推理領域的公認領導者，在 OpenAI、Kimi、GLM 和 Qwen 等模型系列中創下了速度紀錄。今天，我們將谷歌最快的模型與執行在 Cerebras 上的 Kimi K2.6 進行正面交鋒，看看哪個推理提供商能最快完成任務。

智慧水平

Kimi K2.6 是 Moonshot AI 推出的萬億引數混合專家模型，每個 token 啟用 320 億引數。它是包括 MiMo V2.5、DeepSeek V4 和 GLM-5.1 在內的高效能開源模型中的佼佼者。它尤其擅長編碼，特別是作為 Cursor 的 Composer 2.5 的基礎模型。相比之下，Gemini 3.5 Flash 是一個閉源模型，規模未公開，設計執行在谷歌的 TPU 上。其智慧略低於 Gemini 3.1 Pro，但首先為速度而設計。

Gemini 3.5 Flash 和 Kimi K2.6 是理想的比較物件，因為它們都屬於接近前沿的模型類別。在人工智慧分析智慧指數（由十個基準組成）上，兩者勢均力敵，得分分別為 53.9（Kimi K2.6）和 55.3（Gemini 3.5 Flash）。在編碼方面，Kimi K2.6 脫穎而出。它在 SWE-Bench Pro 上以 58.6% 的得分領先，而 Gemini 3.5 Flash 為 55.1%。

推理速度的主要衡量指標是輸出 tokens/s。輸出速度越快，模型完成編碼任務的速度就越快。人工智慧分析透過標準 10,000 token 輸入進行測試，並測量輸出 token 返回的速率。

Gemini 3.5 Flash 在該基準測試中達到 181 tokens/s，顯著快於 Claude Opus 4.8 和 GPT-5.5 的約 60 tokens/s。但執行在 Cerebras 上的 Kimi K2.6 屬於另一個類別。Cerebras 達到 981 輸出 tokens/s——比 Gemini 3.5 Flash 快 5.4 倍。即使與谷歌自己的階段性演示相比（其顯示 Gemini 3.5 Flash 在下一代 TPU 上執行速度約為 280 tokens/s），Cerebras 仍然快三倍以上。這是透過將模型執行在 Cerebras 晶圓級引擎上實現的，該引擎將整個模型儲存在晶片上，無需從外部記憶體載入。

端到端響應

更全面的速度衡量指標是端到端響應。它包括輸入處理、任何思考或推理時間以及輸出生成。在人工智慧分析的測量中（10,000 輸入 token，500 輸出 token），Gemini 3.5 Flash 在 17.5 秒內完成任務。執行在 Cerebras 上的 Kimi K2.6 在 5.6 秒內完成。這表明，即使包含輸入處理（在多輪編碼任務中往往會增長），執行在 Cerebras 上的 Kimi K2.6 仍然能夠在 3.5 Flash 所需時間的一小部分內完成任務。

延遲

語音代理越來越多地用於客戶服務、教育和車載助手。延遲是最重要的指標，更高的延遲直接導致使用者流失增加。當首次 token 時間達到 500ms 或更多時，對話開始感覺像對講機。最智慧的模型可能需要幾秒鐘才能響應，這導致開發者在語音應用中選擇了智慧較低的模型。

這種權衡已不再必要。在最新的多輪語音代理基準測試（aiewf-eval，由 Kwindla 提供）中，執行在 Cerebras 上的 Kimi K2.6 以 452ms 的首次 token 時間實現了該領域最低延遲——使其成為第一個足夠快支援即時語音的前沿模型。這確實是一個首次：一個萬億引數模型在啟用思維鏈推理的情況下突破了 500ms 的障礙。相比之下，谷歌全新發布、速度最佳化的 Gemini 3.5 Flash 為 960ms，Claude Sonnet 4.6 為 850ms。

開源與閉源

還有一個維度不會出現在基準圖表上。Kimi K2.6 是開源的。其權重在修改後的 MIT 許可證下發布，因此你可以對其進行微調、檢查，並在你選擇的任何基礎設施上執行，包括 Cerebras。Gemini 3.5 Flash 是閉源的，只能透過谷歌使用。即使模型開箱即用完全令人滿意，也沒有第二家供應商作為備份，使其依賴於單一提供商的定價、棄用計劃和正常執行時間。

結論

每個基礎模型構建商現在都在提供高速推理 API 端點。Gemini 3.5 Flash 是其中最快的，人工智慧分析測量為 181 tokens/s。執行在 Cerebras 上的 Kimi K2.6 在智慧上與其相當，輸出速度是其五倍，端到端提示完成時間僅為其三分之一。此外，它是第一個足夠快速支援即時語音的前沿模型。由於其開源權重，模型可以根據需要進行微調和部署。速度和智慧——現在你在 Cerebras 上可以兩者兼得。