2026-05-20 08:24 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Cerebras 將 Kimi K2.6 推理服務引入企業

Cerebras 開始為企業客户提供 Kimi K2.6 萬億參數開放權重模型的推理服務。該模型在編碼和智能體任務上表現卓越，推理速度達到每秒 981 個 token，是GPU雲服務的 6.7 倍，能夠實現近乎實時的智能體開發，大幅提升開發者生產力。

來源Cerebras Blog

Cerebras 今日宣佈，已開始在企業客户中試用 Kimi K2.6——領先的萬億參數開放權重模型。Kimi K2.6 在編碼和智能體工作方面廣受認可，是用户請求最多的模型之一。Cerebras 以其快速推理能力聞名，曾在 GLM-4.7、GPT-OSS-120B 和 Qwen 3 等多個開放權重模型上創下基準測試紀錄，併為 OpenAI 和 Cognition 等客户在智能體編碼模型上實現了顯著加速。

據 Artificial Analysis 測量，Cerebras 運行 Kimi K2.6 時實現了每秒 981 個輸出 token 的速度，比次快的 GPU 雲服務快 6.7 倍，比推理供應商的中位數快 23 倍。對於包含提示處理、推理和生成 500 個輸出 token 的 10,000 token 輸入請求，Cerebras 在 5.6 秒內提供完整響應，而官方 Kimi 端點需要 163.7 秒——快了 29 倍。

Kimi K2.6 被廣泛視為編碼和智能體工作的領先開放權重模型。它在 SWE-Bench Pro 上達到 58.6%，超越 Claude Opus 4.6，與 GPT-5.4 持平，並在 Humanity's Last Exam 和 DeepSearchQA 等智能體基準測試中領先。開發者已將其採納為閉源前沿模型的開源替代品，尤其用於編碼——它對簡潔前端設計的偏好使其成為全棧應用生成的熱門選擇。2.6 版本將這一能力從前端擴展到全棧工作流，包括身份驗證、數據庫操作和長期智能體執行。

Cerebras 晶圓級引擎專為大規模設計。一組 CS-3 系統可配置支持多萬億參數模型的訓練和推理。Cerebras 在優化堆棧以高效服務大型模型方面投入了大量工程精力。該系統以原始 4 位權重存儲 Kimi K2.6，同時以 16 位浮點進行計算以確保最佳精度。權重分佈在多個晶圓上，激活值在晶圓間流式傳輸。層間通信完全使用片上網絡結構，其帶寬是 NVL72 上 NVLink 的 200 倍以上。結合自定義內核和推測解碼，Cerebras 能夠以接近每秒 1,000 token 的速度服務萬億參數 MoE 模型，創下世界紀錄。

智能體編碼已成為大語言模型最高價值的用例，也是對推理速度最敏感的工作負載。在接近每秒一千 token 的速度下，Kimi 生成代碼的速度比 Claude Opus 等流行模型快一個數量級。開發者能夠快速迭代、更快得到最終解決方案，並專注於單一任務，無需啓動多個智能體並頻繁切換。前端迭代感覺幾乎是即時的，而代碼重構和具有挑戰性的漏洞修復能在極短時間內完成。

Cerebras 現已向企業客户提供 K2.6 的試用。如果用户正在運行智能體編碼、深度研究或任何推理速度為瓶頸的生產 AI 工作負載，Cerebras 歡迎聯繫。