Moonshot AI 釋出 Kimi K2.7-Code:編碼模型在 Kimi Code Bench v2 上比 K2.6 提升 21.8%
Moonshot AI 開源了 Kimi K2.7-Code,這是一個專注於編碼的智慧體模型,基於 Kimi K2.6 構建,擁有 256K 上下文視窗,推理 token 使用量降低約 30%。在六個基準測試中均優於 K2.6,其中 Kimi Code Bench v2 提升 21.8%。模型可透過 Kimi API 和 Kimi Code 使用。
本週,Moonshot AI 釋出了 Kimi K2.7-Code,這是一個專注於編碼的智慧體模型。模型權重已在 Hugging Face 上以 Modified MIT 許可證開源,同時也可透過 Kimi API 和 Kimi Code 平臺訪問。
K2.7-Code 專為長期軟體工程任務設計,而非通用對話。它能夠規劃、編輯、執行工具並進行多步驟除錯。Moonshot 還為其配套提供了一個訂閱制的編碼平臺。
模型架構方面,K2.7-Code 採用混合專家(MoE)設計,總引數量達 1T,每個 token 啟用 32B 引數。它使用 384 個專家,每個 token 選擇 8 個專家和 1 個共享專家,共 61 層,其中包含 1 個稠密層。注意力機制採用 MLA,前饋路徑使用 SwiGLU。此外,MoonViT 視覺編碼器增加了 4 億引數,支援影像和影片輸入。模型原生支援 INT4 量化,上下文視窗為 256K token(262,144)。
使用上有兩個重要約束:思考模式必須開啟,停用會返回 API 錯誤;取樣引數固定為 temperature 1.0、top_p 0.95、n 1、懲罰項 0.0,預設最大輸出為 32,768 token。使用者可以透過 vLLM、SGLang 或 KTransformers 進行自託管,但 Hugging Face 倉庫約 595 GB,適合伺服器級部署。
在基準測試方面,Moonshot 團隊公佈了六項對比結果,將 K2.7-Code 與 K2.6、GPT-5.5 和 Claude Opus 4.8 進行比較。K2.7-Code 在所有指標上均優於 K2.6,最大的編碼提升來自 Kimi Code Bench v2,從 50.9 升至 62.0。此外,K2.7-Code 在 MCP Mark Verified 上以 81.1 分超過了 Claude Opus 4.8(76.4 分),並在 MLS Bench Lite 上接近 GPT-5.5。
推理 token 效率是另一個亮點。Moonshot 報告稱,與 K2.6 相比,推理 token 使用量減少約 30%,這被描述為“更少過度思考”。由於推理 token 通常按輸出 token 計費,這一最佳化在長序列編碼任務中能顯著降低成本,同時加快互動速度並延長上下文有效長度。
主要用例包括倉庫級重構、程式碼審查、MCP 工具使用工作流以及長上下文分析。例如,讓智慧體處理失敗的測試套件,它會讀取檔案、跨模組編輯並重新執行測試直至透過;或者輸入拉取請求差異進行風險分析,256K 視窗能容納大型差異、日誌和相關檔案。
與競品相比,K2.7-Code 的 API 定價較低:輸入每百萬 token $0.95,輸出 $4.00,快取輸入僅 $0.19。而 Claude Opus 4.8 的定價為輸入 $5.00、輸出 $25.00。開源的 Qwen3-Coder-480B-A35B 則因託管方而異。
雖然所有基準測試均為公司自行報告,待獨立驗證,但 K2.7-Code 在編碼領域表現出明顯進步。其開放權重、固定取樣和思考模式限制以及龐大的自託管需求是值得注意的權衡。