2026-06-13站内改写2 分鐘閱讀更新: 2026-06-15

Moonshot AI 釋出 Kimi K2.7-Code：編碼模型在 Kimi Code Bench v2 上比 K2.6 提升 21.8%

Moonshot AI 開源了 Kimi K2.7-Code，這是一個專注於編碼的智慧體模型，基於 Kimi K2.6 構建，擁有 256K 上下文視窗，推理 token 使用量降低約 30%。在六個基準測試中均優於 K2.6，其中 Kimi Code Bench v2 提升 21.8%。模型可透過 Kimi API 和 Kimi Code 使用。

來源MarkTechPost作者: Asif Razzaq

文章情報

工程師進階

要點

Kimi K2.7-Code 是一個開源（Modified MIT 許可證）的編碼專用智慧體模型，總引數量 1T，每個 token 啟用 32B。
與 K2.6 相比，推理 token 使用量減少約 30%，在 Kimi Code Bench v2 上得分提升 21.8%（從 50.9 到 62.0）。
模型適用於倉庫級重構、程式碼審查、MCP 工具使用和長上下文分析，支援 256K token 上下文視窗。
自託管需要約 595 GB 磁碟空間，API 定價為每百萬 token 輸入 $0.95、輸出 $4.00，快取輸入僅 $0.19。

為什麼重要

這條新聞值得關注，因為Kimi K2.7-Code 是一個開源（Modified MIT 許可證）的編碼專用智慧體模型，總引數量 1T，每個 token 啟用 32B。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本週，Moonshot AI 釋出了 Kimi K2.7-Code，這是一個專注於編碼的智慧體模型。模型權重已在 Hugging Face 上以 Modified MIT 許可證開源，同時也可透過 Kimi API 和 Kimi Code 平臺訪問。

K2.7-Code 專為長期軟體工程任務設計，而非通用對話。它能夠規劃、編輯、執行工具並進行多步驟除錯。Moonshot 還為其配套提供了一個訂閱制的編碼平臺。

模型架構方面，K2.7-Code 採用混合專家（MoE）設計，總引數量達 1T，每個 token 啟用 32B 引數。它使用 384 個專家，每個 token 選擇 8 個專家和 1 個共享專家，共 61 層，其中包含 1 個稠密層。注意力機制採用 MLA，前饋路徑使用 SwiGLU。此外，MoonViT 視覺編碼器增加了 4 億引數，支援影像和影片輸入。模型原生支援 INT4 量化，上下文視窗為 256K token（262,144）。

使用上有兩個重要約束：思考模式必須開啟，停用會返回 API 錯誤；取樣引數固定為 temperature 1.0、top_p 0.95、n 1、懲罰項 0.0，預設最大輸出為 32,768 token。使用者可以透過 vLLM、SGLang 或 KTransformers 進行自託管，但 Hugging Face 倉庫約 595 GB，適合伺服器級部署。

在基準測試方面，Moonshot 團隊公佈了六項對比結果，將 K2.7-Code 與 K2.6、GPT-5.5 和 Claude Opus 4.8 進行比較。K2.7-Code 在所有指標上均優於 K2.6，最大的編碼提升來自 Kimi Code Bench v2，從 50.9 升至 62.0。此外，K2.7-Code 在 MCP Mark Verified 上以 81.1 分超過了 Claude Opus 4.8（76.4 分），並在 MLS Bench Lite 上接近 GPT-5.5。

推理 token 效率是另一個亮點。Moonshot 報告稱，與 K2.6 相比，推理 token 使用量減少約 30%，這被描述為“更少過度思考”。由於推理 token 通常按輸出 token 計費，這一最佳化在長序列編碼任務中能顯著降低成本，同時加快互動速度並延長上下文有效長度。

主要用例包括倉庫級重構、程式碼審查、MCP 工具使用工作流以及長上下文分析。例如，讓智慧體處理失敗的測試套件，它會讀取檔案、跨模組編輯並重新執行測試直至透過；或者輸入拉取請求差異進行風險分析，256K 視窗能容納大型差異、日誌和相關檔案。

與競品相比，K2.7-Code 的 API 定價較低：輸入每百萬 token $0.95，輸出 $4.00，快取輸入僅 $0.19。而 Claude Opus 4.8 的定價為輸入 $5.00、輸出 $25.00。開源的 Qwen3-Coder-480B-A35B 則因託管方而異。

雖然所有基準測試均為公司自行報告，待獨立驗證，但 K2.7-Code 在編碼領域表現出明顯進步。其開放權重、固定取樣和思考模式限制以及龐大的自託管需求是值得注意的權衡。