Moonshot AI 發佈 Kimi K2.7-Code:編碼模型在 Kimi Code Bench v2 上比 K2.6 提升 21.8%
Moonshot AI 開源了 Kimi K2.7-Code,這是一個專注於編碼的智能體模型,基於 Kimi K2.6 構建,擁有 256K 上下文窗口,推理 token 使用量降低約 30%。在六個基準測試中均優於 K2.6,其中 Kimi Code Bench v2 提升 21.8%。模型可通過 Kimi API 和 Kimi Code 使用。
本週,Moonshot AI 發佈了 Kimi K2.7-Code,這是一個專注於編碼的智能體模型。模型權重已在 Hugging Face 上以 Modified MIT 許可證開源,同時也可通過 Kimi API 和 Kimi Code 平台訪問。
K2.7-Code 專為長期軟件工程任務設計,而非通用對話。它能夠規劃、編輯、運行工具並進行多步驟調試。Moonshot 還為其配套提供了一個訂閲制的編碼平台。
模型架構方面,K2.7-Code 採用混合專家(MoE)設計,總參數量達 1T,每個 token 激活 32B 參數。它使用 384 個專家,每個 token 選擇 8 個專家和 1 個共享專家,共 61 層,其中包含 1 個稠密層。注意力機制採用 MLA,前饋路徑使用 SwiGLU。此外,MoonViT 視覺編碼器增加了 4 億參數,支持圖像和視頻輸入。模型原生支持 INT4 量化,上下文窗口為 256K token(262,144)。
使用上有兩個重要約束:思考模式必須開啓,禁用會返回 API 錯誤;採樣參數固定為 temperature 1.0、top_p 0.95、n 1、懲罰項 0.0,默認最大輸出為 32,768 token。用户可以通過 vLLM、SGLang 或 KTransformers 進行自託管,但 Hugging Face 倉庫約 595 GB,適合服務器級部署。
在基準測試方面,Moonshot 團隊公佈了六項對比結果,將 K2.7-Code 與 K2.6、GPT-5.5 和 Claude Opus 4.8 進行比較。K2.7-Code 在所有指標上均優於 K2.6,最大的編碼提升來自 Kimi Code Bench v2,從 50.9 升至 62.0。此外,K2.7-Code 在 MCP Mark Verified 上以 81.1 分超過了 Claude Opus 4.8(76.4 分),並在 MLS Bench Lite 上接近 GPT-5.5。
推理 token 效率是另一個亮點。Moonshot 報告稱,與 K2.6 相比,推理 token 使用量減少約 30%,這被描述為“更少過度思考”。由於推理 token 通常按輸出 token 計費,這一優化在長序列編碼任務中能顯著降低成本,同時加快交互速度並延長上下文有效長度。
主要用例包括倉庫級重構、代碼審查、MCP 工具使用工作流以及長上下文分析。例如,讓智能體處理失敗的測試套件,它會讀取文件、跨模塊編輯並重新運行測試直至通過;或者輸入拉取請求差異進行風險分析,256K 窗口能容納大型差異、日誌和相關文件。
與競品相比,K2.7-Code 的 API 定價較低:輸入每百萬 token $0.95,輸出 $4.00,緩存輸入僅 $0.19。而 Claude Opus 4.8 的定價為輸入 $5.00、輸出 $25.00。開源的 Qwen3-Coder-480B-A35B 則因託管方而異。
雖然所有基準測試均為公司自行報告,待獨立驗證,但 K2.7-Code 在編碼領域表現出明顯進步。其開放權重、固定採樣和思考模式限制以及龐大的自託管需求是值得注意的權衡。