2026-06-13站内改写2 分钟阅读更新: 2026-06-15

Moonshot AI 发布 Kimi K2.7-Code：编码模型在 Kimi Code Bench v2 上比 K2.6 提升 21.8%

Moonshot AI 开源了 Kimi K2.7-Code，这是一个专注于编码的智能体模型，基于 Kimi K2.6 构建，拥有 256K 上下文窗口，推理 token 使用量降低约 30%。在六个基准测试中均优于 K2.6，其中 Kimi Code Bench v2 提升 21.8%。模型可通过 Kimi API 和 Kimi Code 使用。

来源MarkTechPost作者: Asif Razzaq

文章情报

工程师进阶

要点

Kimi K2.7-Code 是一个开源（Modified MIT 许可证）的编码专用智能体模型，总参数量 1T，每个 token 激活 32B。
与 K2.6 相比，推理 token 使用量减少约 30%，在 Kimi Code Bench v2 上得分提升 21.8%（从 50.9 到 62.0）。
模型适用于仓库级重构、代码审查、MCP 工具使用和长上下文分析，支持 256K token 上下文窗口。
自托管需要约 595 GB 磁盘空间，API 定价为每百万 token 输入 $0.95、输出 $4.00，缓存输入仅 $0.19。

为什么重要

这条新闻值得关注，因为Kimi K2.7-Code 是一个开源（Modified MIT 许可证）的编码专用智能体模型，总参数量 1T，每个 token 激活 32B。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本周，Moonshot AI 发布了 Kimi K2.7-Code，这是一个专注于编码的智能体模型。模型权重已在 Hugging Face 上以 Modified MIT 许可证开源，同时也可通过 Kimi API 和 Kimi Code 平台访问。

K2.7-Code 专为长期软件工程任务设计，而非通用对话。它能够规划、编辑、运行工具并进行多步骤调试。Moonshot 还为其配套提供了一个订阅制的编码平台。

模型架构方面，K2.7-Code 采用混合专家（MoE）设计，总参数量达 1T，每个 token 激活 32B 参数。它使用 384 个专家，每个 token 选择 8 个专家和 1 个共享专家，共 61 层，其中包含 1 个稠密层。注意力机制采用 MLA，前馈路径使用 SwiGLU。此外，MoonViT 视觉编码器增加了 4 亿参数，支持图像和视频输入。模型原生支持 INT4 量化，上下文窗口为 256K token（262,144）。

使用上有两个重要约束：思考模式必须开启，禁用会返回 API 错误；采样参数固定为 temperature 1.0、top_p 0.95、n 1、惩罚项 0.0，默认最大输出为 32,768 token。用户可以通过 vLLM、SGLang 或 KTransformers 进行自托管，但 Hugging Face 仓库约 595 GB，适合服务器级部署。

在基准测试方面，Moonshot 团队公布了六项对比结果，将 K2.7-Code 与 K2.6、GPT-5.5 和 Claude Opus 4.8 进行比较。K2.7-Code 在所有指标上均优于 K2.6，最大的编码提升来自 Kimi Code Bench v2，从 50.9 升至 62.0。此外，K2.7-Code 在 MCP Mark Verified 上以 81.1 分超过了 Claude Opus 4.8（76.4 分），并在 MLS Bench Lite 上接近 GPT-5.5。

推理 token 效率是另一个亮点。Moonshot 报告称，与 K2.6 相比，推理 token 使用量减少约 30%，这被描述为“更少过度思考”。由于推理 token 通常按输出 token 计费，这一优化在长序列编码任务中能显著降低成本，同时加快交互速度并延长上下文有效长度。

主要用例包括仓库级重构、代码审查、MCP 工具使用工作流以及长上下文分析。例如，让智能体处理失败的测试套件，它会读取文件、跨模块编辑并重新运行测试直至通过；或者输入拉取请求差异进行风险分析，256K 窗口能容纳大型差异、日志和相关文件。

与竞品相比，K2.7-Code 的 API 定价较低：输入每百万 token $0.95，输出 $4.00，缓存输入仅 $0.19。而 Claude Opus 4.8 的定价为输入 $5.00、输出 $25.00。开源的 Qwen3-Coder-480B-A35B 则因托管方而异。

虽然所有基准测试均为公司自行报告，待独立验证，但 K2.7-Code 在编码领域表现出明显进步。其开放权重、固定采样和思考模式限制以及庞大的自托管需求是值得注意的权衡。