2026-05-20 08:24 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Cerebras 將 Kimi K2.6 推理服務引入企業

Cerebras 開始為企業客戶提供 Kimi K2.6 萬億引數開放權重模型的推理服務。該模型在編碼和智慧體任務上表現卓越，推理速度達到每秒 981 個 token，是GPU雲服務的 6.7 倍，能夠實現近乎即時的智慧體開發，大幅提升開發者生產力。

來源Cerebras Blog

Cerebras 今日宣佈，已開始在企業客戶中試用 Kimi K2.6——領先的萬億引數開放權重模型。Kimi K2.6 在編碼和智慧體工作方面廣受認可，是使用者請求最多的模型之一。Cerebras 以其快速推理能力聞名，曾在 GLM-4.7、GPT-OSS-120B 和 Qwen 3 等多個開放權重模型上創下基準測試紀錄，併為 OpenAI 和 Cognition 等客戶在智慧體編碼模型上實現了顯著加速。

據 Artificial Analysis 測量，Cerebras 執行 Kimi K2.6 時實現了每秒 981 個輸出 token 的速度，比次快的 GPU 雲服務快 6.7 倍，比推理供應商的中位數快 23 倍。對於包含提示處理、推理和生成 500 個輸出 token 的 10,000 token 輸入請求，Cerebras 在 5.6 秒內提供完整響應，而官方 Kimi 端點需要 163.7 秒——快了 29 倍。

Kimi K2.6 被廣泛視為編碼和智慧體工作的領先開放權重模型。它在 SWE-Bench Pro 上達到 58.6%，超越 Claude Opus 4.6，與 GPT-5.4 持平，並在 Humanity's Last Exam 和 DeepSearchQA 等智慧體基準測試中領先。開發者已將其採納為閉源前沿模型的開源替代品，尤其用於編碼——它對簡潔前端設計的偏好使其成為全棧應用生成的熱門選擇。2.6 版本將這一能力從前端擴充套件到全棧工作流，包括身份驗證、資料庫操作和長期智慧體執行。

Cerebras 晶圓級引擎專為大規模設計。一組 CS-3 系統可配置支援多萬億引數模型的訓練和推理。Cerebras 在最佳化堆疊以高效服務大型模型方面投入了大量工程精力。該系統以原始 4 位權重儲存 Kimi K2.6，同時以 16 位浮點進行計算以確保最佳精度。權重分佈在多個晶圓上，啟用值在晶圓間流式傳輸。層間通訊完全使用片上網路結構，其頻寬是 NVL72 上 NVLink 的 200 倍以上。結合自定義核心和推測解碼，Cerebras 能夠以接近每秒 1,000 token 的速度服務萬億引數 MoE 模型，創下世界紀錄。

智慧體編碼已成為大語言模型最高價值的用例，也是對推理速度最敏感的工作負載。在接近每秒一千 token 的速度下，Kimi 生成程式碼的速度比 Claude Opus 等流行模型快一個數量級。開發者能夠快速迭代、更快得到最終解決方案，並專注於單一任務，無需啟動多個智慧體並頻繁切換。前端迭代感覺幾乎是即時的，而程式碼重構和具有挑戰性的漏洞修復能在極短時間內完成。

Cerebras 現已向企業客戶提供 K2.6 的試用。如果使用者正在執行智慧體編碼、深度研究或任何推理速度為瓶頸的生產 AI 工作負載，Cerebras 歡迎聯絡。