2026-06-17 05:46 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Fireworks 上的 Kimi K2.7 Code：更优的代理，更低的单任务成本，上线首日可用

月之暗面（Moonshot AI）发布 Kimi K2.7 Code，这是 K2 系列的最新编程模型，现已通过 Fireworks AI 提供 Day-0 支持。相比 K2.6，该模型推理 token 减少约 30%，同时在编程评测中得分更高。推理 token 的减少显著降低了代理工作流的单任务成本。Fireworks 提供标准、优先和快速（即将推出）三种服务层级，满足不同可靠性和速度需求。

来源Fireworks AI Blog

月之暗面（Moonshot AI）今日发布了其 K2 系列的最新型号——Kimi K2.7 Code，而 Fireworks AI 同步推出了 Day-0 支持。该模型沿用 K2 家族的架构：总参数 1T，每个 token 激活 32B，上下文窗口 256K，专为长周期代理编程任务优化。定价与月之暗面的公开价格一致：每百万输入 token 0.95 美元，每百万输出 token 4.00 美元，缓存命中每百万 0.19 美元。

最引人注目的变化并非基准分数本身。K2.7 Code 相比 K2.6 减少了约 30% 的推理 token，同时在编程评测中表现更优：Kimi Code Bench v2 提升 21.8%，Program Bench 提升 11.0%，MLS Bench Lite 提升 31.5%。通常模型通过增加推理来提升性能，而 K2.7 反其道而行之——用更少的思考获得更好的结果。这对于观察过编程代理在简单问题上反复兜圈的开发者来说，意义远超几个百分点的提升。

为什么减少推理 token 如此关键？在人类作为消费者的时代，token 成本几乎可以忽略不计。但代理改变了这一切。一个长周期编程任务可能发起数十次模型调用、工具调用和推理链，一小时消耗的 token 比一个人一年阅读的还多。更关键的是，成本不是简单相加，而是复合增长：每一轮的推理 token 会在后续轮次作为历史信息被反复读取，写一次却要读几十次。因此，减少 30% 的推理 token 带来的效益远高于降低 30% 的单价。单价只影响一次，而 token 的节省贯穿整个任务轨迹：更短的生成、更小的上下文、更快的循环、更少的重试。

K2.7 Code 在 Fireworks 上提供三种服务选项，针对突发性的代理流量设计。标准（Standard）为弹性按量付费，现有 API 调用无需修改。优先（Priority）通过设置 service_tier: 'priority' 来获得更强的准入控制，价格约为标准的 1.5 倍，主要用于可靠性而非速度。快速（Fast）是一条独立的高吞吐服务路径，以每秒 100+ 生成 token 的速度运行同一权重，价格约为标准的 2 倍，通过专用模型 ID 调用。对于受延迟约束的代理循环，快速模式与 K2.7 更短的推理链形成复合优势。快速模式即将推出，目前尚未完全就绪。

Fireworks 团队理解代理流量的突发性和不均衡性，开发者无需预留 GPU 或预测流量模式即可获得生产级可靠性。将关键代理流量路由到优先模式，其余保留在标准模式即可。快速模式上线后，将为延迟敏感的循环提供高吞吐路径。

Kimi K2.7 Code 现已可用，开发者可通过 cURL 命令或 Playground 试用。示例 API 调用如下：

curl https://api.fireworks.ai/inference/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $FIREWORKS_API_KEY" \ -d '{ "model": "accounts/fireworks/models/kimi-k2p7-code", "messages": [{"role": "user", "content": "Refactor this function for readability."}] }'

总之，Kimi K2.7 Code 通过减少推理 token 实现了更低的代理任务成本，而 Fireworks 的灵活服务选项使其适用于各种生产场景。