AI News HubLIVE
站内改写2 分钟阅读

Moonshot AI 发布 Kimi K2.7-Code:编码模型在 Kimi Code Bench v2 上比 K2.6 提升 21.8%

Moonshot AI 开源了 Kimi K2.7-Code,这是一个专注于编码的智能体模型,基于 Kimi K2.6 构建,拥有 256K 上下文窗口,推理 token 使用量降低约 30%。在六个基准测试中均优于 K2.6,其中 Kimi Code Bench v2 提升 21.8%。模型可通过 Kimi API 和 Kimi Code 使用。

来源MarkTechPost作者: Asif Razzaq

本周,Moonshot AI 发布了 Kimi K2.7-Code,这是一个专注于编码的智能体模型。模型权重已在 Hugging Face 上以 Modified MIT 许可证开源,同时也可通过 Kimi API 和 Kimi Code 平台访问。

K2.7-Code 专为长期软件工程任务设计,而非通用对话。它能够规划、编辑、运行工具并进行多步骤调试。Moonshot 还为其配套提供了一个订阅制的编码平台。

模型架构方面,K2.7-Code 采用混合专家(MoE)设计,总参数量达 1T,每个 token 激活 32B 参数。它使用 384 个专家,每个 token 选择 8 个专家和 1 个共享专家,共 61 层,其中包含 1 个稠密层。注意力机制采用 MLA,前馈路径使用 SwiGLU。此外,MoonViT 视觉编码器增加了 4 亿参数,支持图像和视频输入。模型原生支持 INT4 量化,上下文窗口为 256K token(262,144)。

使用上有两个重要约束:思考模式必须开启,禁用会返回 API 错误;采样参数固定为 temperature 1.0、top_p 0.95、n 1、惩罚项 0.0,默认最大输出为 32,768 token。用户可以通过 vLLM、SGLang 或 KTransformers 进行自托管,但 Hugging Face 仓库约 595 GB,适合服务器级部署。

在基准测试方面,Moonshot 团队公布了六项对比结果,将 K2.7-Code 与 K2.6、GPT-5.5 和 Claude Opus 4.8 进行比较。K2.7-Code 在所有指标上均优于 K2.6,最大的编码提升来自 Kimi Code Bench v2,从 50.9 升至 62.0。此外,K2.7-Code 在 MCP Mark Verified 上以 81.1 分超过了 Claude Opus 4.8(76.4 分),并在 MLS Bench Lite 上接近 GPT-5.5。

推理 token 效率是另一个亮点。Moonshot 报告称,与 K2.6 相比,推理 token 使用量减少约 30%,这被描述为“更少过度思考”。由于推理 token 通常按输出 token 计费,这一优化在长序列编码任务中能显著降低成本,同时加快交互速度并延长上下文有效长度。

主要用例包括仓库级重构、代码审查、MCP 工具使用工作流以及长上下文分析。例如,让智能体处理失败的测试套件,它会读取文件、跨模块编辑并重新运行测试直至通过;或者输入拉取请求差异进行风险分析,256K 窗口能容纳大型差异、日志和相关文件。

与竞品相比,K2.7-Code 的 API 定价较低:输入每百万 token $0.95,输出 $4.00,缓存输入仅 $0.19。而 Claude Opus 4.8 的定价为输入 $5.00、输出 $25.00。开源的 Qwen3-Coder-480B-A35B 则因托管方而异。

虽然所有基准测试均为公司自行报告,待独立验证,但 K2.7-Code 在编码领域表现出明显进步。其开放权重、固定采样和思考模式限制以及庞大的自托管需求是值得注意的权衡。