2026-06-13站内改写2 分鐘閱讀更新: 2026-06-13

Moonshot AI 發佈 Kimi K2.7-Code：編碼模型在 Kimi Code Bench v2 上比 K2.6 提升 21.8%

Moonshot AI 開源了 Kimi K2.7-Code，這是一個專注於編碼的智能體模型，基於 Kimi K2.6 構建，擁有 256K 上下文窗口，推理 token 使用量降低約 30%。在六個基準測試中均優於 K2.6，其中 Kimi Code Bench v2 提升 21.8%。模型可通過 Kimi API 和 Kimi Code 使用。

來源MarkTechPost作者: Asif Razzaq

文章情報

工程師進階

要點

Kimi K2.7-Code 是一個開源（Modified MIT 許可證）的編碼專用智能體模型，總參數量 1T，每個 token 激活 32B。
與 K2.6 相比，推理 token 使用量減少約 30%，在 Kimi Code Bench v2 上得分提升 21.8%（從 50.9 到 62.0）。
模型適用於倉庫級重構、代碼審查、MCP 工具使用和長上下文分析，支持 256K token 上下文窗口。
自託管需要約 595 GB 磁盤空間，API 定價為每百萬 token 輸入 $0.95、輸出 $4.00，緩存輸入僅 $0.19。

為甚麼重要

這條新聞值得關注，因為Kimi K2.7-Code 是一個開源（Modified MIT 許可證）的編碼專用智能體模型，總參數量 1T，每個 token 激活 32B。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本週，Moonshot AI 發佈了 Kimi K2.7-Code，這是一個專注於編碼的智能體模型。模型權重已在 Hugging Face 上以 Modified MIT 許可證開源，同時也可通過 Kimi API 和 Kimi Code 平台訪問。

K2.7-Code 專為長期軟件工程任務設計，而非通用對話。它能夠規劃、編輯、運行工具並進行多步驟調試。Moonshot 還為其配套提供了一個訂閲制的編碼平台。

模型架構方面，K2.7-Code 採用混合專家（MoE）設計，總參數量達 1T，每個 token 激活 32B 參數。它使用 384 個專家，每個 token 選擇 8 個專家和 1 個共享專家，共 61 層，其中包含 1 個稠密層。注意力機制採用 MLA，前饋路徑使用 SwiGLU。此外，MoonViT 視覺編碼器增加了 4 億參數，支持圖像和視頻輸入。模型原生支持 INT4 量化，上下文窗口為 256K token（262,144）。

使用上有兩個重要約束：思考模式必須開啓，禁用會返回 API 錯誤；採樣參數固定為 temperature 1.0、top_p 0.95、n 1、懲罰項 0.0，默認最大輸出為 32,768 token。用户可以通過 vLLM、SGLang 或 KTransformers 進行自託管，但 Hugging Face 倉庫約 595 GB，適合服務器級部署。

在基準測試方面，Moonshot 團隊公佈了六項對比結果，將 K2.7-Code 與 K2.6、GPT-5.5 和 Claude Opus 4.8 進行比較。K2.7-Code 在所有指標上均優於 K2.6，最大的編碼提升來自 Kimi Code Bench v2，從 50.9 升至 62.0。此外，K2.7-Code 在 MCP Mark Verified 上以 81.1 分超過了 Claude Opus 4.8（76.4 分），並在 MLS Bench Lite 上接近 GPT-5.5。

推理 token 效率是另一個亮點。Moonshot 報告稱，與 K2.6 相比，推理 token 使用量減少約 30%，這被描述為“更少過度思考”。由於推理 token 通常按輸出 token 計費，這一優化在長序列編碼任務中能顯著降低成本，同時加快交互速度並延長上下文有效長度。

主要用例包括倉庫級重構、代碼審查、MCP 工具使用工作流以及長上下文分析。例如，讓智能體處理失敗的測試套件，它會讀取文件、跨模塊編輯並重新運行測試直至通過；或者輸入拉取請求差異進行風險分析，256K 窗口能容納大型差異、日誌和相關文件。

與競品相比，K2.7-Code 的 API 定價較低：輸入每百萬 token $0.95，輸出 $4.00，緩存輸入僅 $0.19。而 Claude Opus 4.8 的定價為輸入 $5.00、輸出 $25.00。開源的 Qwen3-Coder-480B-A35B 則因託管方而異。

雖然所有基準測試均為公司自行報告，待獨立驗證，但 K2.7-Code 在編碼領域表現出明顯進步。其開放權重、固定採樣和思考模式限制以及龐大的自託管需求是值得注意的權衡。