Gemini 3.5 Flash 與 Kimi K2.6 在 Cerebras 上誰更快?
谷歌在 Google I/O 2026 上釋出了以速度為核心的 Gemini 3.5 Flash,而 Cerebras 上的 Kimi K2.6 在推理速度上全面領先。本文從智慧水平、輸出速度、端到端響應、延遲和開閉源等維度進行了詳細對比。
在 Google I/O 2026 上,谷歌一反常態,沒有推出以智慧為核心的新旗艦模型,而是釋出了 Gemini 3.5 Flash——一款首先為速度設計的模型。
隨著模型能夠處理更復雜的編碼任務,完成提示所需的時間從幾秒增長到幾分鐘,有時甚至數小時。因此,開發者正在尋找更快的推理選項。今年早些時候,OpenAI 和 Anthropic 都推出了其領先模型的高速變體,價格是基礎模型的三倍。谷歌現在也加入了這一行列,將速度作為主打特性,而非事後考慮。
Cerebras 是高速推理領域的公認領導者,在 OpenAI、Kimi、GLM 和 Qwen 等模型系列中創下了速度紀錄。今天,我們將谷歌最快的模型與執行在 Cerebras 上的 Kimi K2.6 進行正面交鋒,看看哪個推理提供商能最快完成任務。
智慧水平
Kimi K2.6 是 Moonshot AI 推出的萬億引數混合專家模型,每個 token 啟用 320 億引數。它是包括 MiMo V2.5、DeepSeek V4 和 GLM-5.1 在內的高效能開源模型中的佼佼者。它尤其擅長編碼,特別是作為 Cursor 的 Composer 2.5 的基礎模型。相比之下,Gemini 3.5 Flash 是一個閉源模型,規模未公開,設計執行在谷歌的 TPU 上。其智慧略低於 Gemini 3.1 Pro,但首先為速度而設計。
Gemini 3.5 Flash 和 Kimi K2.6 是理想的比較物件,因為它們都屬於接近前沿的模型類別。在人工智慧分析智慧指數(由十個基準組成)上,兩者勢均力敵,得分分別為 53.9(Kimi K2.6)和 55.3(Gemini 3.5 Flash)。在編碼方面,Kimi K2.6 脫穎而出。它在 SWE-Bench Pro 上以 58.6% 的得分領先,而 Gemini 3.5 Flash 為 55.1%。
推理速度的主要衡量指標是輸出 tokens/s。輸出速度越快,模型完成編碼任務的速度就越快。人工智慧分析透過標準 10,000 token 輸入進行測試,並測量輸出 token 返回的速率。
Gemini 3.5 Flash 在該基準測試中達到 181 tokens/s,顯著快於 Claude Opus 4.8 和 GPT-5.5 的約 60 tokens/s。但執行在 Cerebras 上的 Kimi K2.6 屬於另一個類別。Cerebras 達到 981 輸出 tokens/s——比 Gemini 3.5 Flash 快 5.4 倍。即使與谷歌自己的階段性演示相比(其顯示 Gemini 3.5 Flash 在下一代 TPU 上執行速度約為 280 tokens/s),Cerebras 仍然快三倍以上。這是透過將模型執行在 Cerebras 晶圓級引擎上實現的,該引擎將整個模型儲存在晶片上,無需從外部記憶體載入。
端到端響應
更全面的速度衡量指標是端到端響應。它包括輸入處理、任何思考或推理時間以及輸出生成。在人工智慧分析的測量中(10,000 輸入 token,500 輸出 token),Gemini 3.5 Flash 在 17.5 秒內完成任務。執行在 Cerebras 上的 Kimi K2.6 在 5.6 秒內完成。這表明,即使包含輸入處理(在多輪編碼任務中往往會增長),執行在 Cerebras 上的 Kimi K2.6 仍然能夠在 3.5 Flash 所需時間的一小部分內完成任務。
延遲
語音代理越來越多地用於客戶服務、教育和車載助手。延遲是最重要的指標,更高的延遲直接導致使用者流失增加。當首次 token 時間達到 500ms 或更多時,對話開始感覺像對講機。最智慧的模型可能需要幾秒鐘才能響應,這導致開發者在語音應用中選擇了智慧較低的模型。
這種權衡已不再必要。在最新的多輪語音代理基準測試(aiewf-eval,由 Kwindla 提供)中,執行在 Cerebras 上的 Kimi K2.6 以 452ms 的首次 token 時間實現了該領域最低延遲——使其成為第一個足夠快支援即時語音的前沿模型。這確實是一個首次:一個萬億引數模型在啟用思維鏈推理的情況下突破了 500ms 的障礙。相比之下,谷歌全新發布、速度最佳化的 Gemini 3.5 Flash 為 960ms,Claude Sonnet 4.6 為 850ms。
開源與閉源
還有一個維度不會出現在基準圖表上。Kimi K2.6 是開源的。其權重在修改後的 MIT 許可證下發布,因此你可以對其進行微調、檢查,並在你選擇的任何基礎設施上執行,包括 Cerebras。Gemini 3.5 Flash 是閉源的,只能透過谷歌使用。即使模型開箱即用完全令人滿意,也沒有第二家供應商作為備份,使其依賴於單一提供商的定價、棄用計劃和正常執行時間。
結論
每個基礎模型構建商現在都在提供高速推理 API 端點。Gemini 3.5 Flash 是其中最快的,人工智慧分析測量為 181 tokens/s。執行在 Cerebras 上的 Kimi K2.6 在智慧上與其相當,輸出速度是其五倍,端到端提示完成時間僅為其三分之一。此外,它是第一個足夠快速支援即時語音的前沿模型。由於其開源權重,模型可以根據需要進行微調和部署。速度和智慧——現在你在 Cerebras 上可以兩者兼得。