AI News HubLIVE
站内改写2 分钟阅读

Fireworks 上的 Kimi K2.7 Code:更优的代理,更低的单任务成本,上线首日可用

月之暗面(Moonshot AI)发布 Kimi K2.7 Code,这是 K2 系列的最新编程模型,现已通过 Fireworks AI 提供 Day-0 支持。相比 K2.6,该模型推理 token 减少约 30%,同时在编程评测中得分更高。推理 token 的减少显著降低了代理工作流的单任务成本。Fireworks 提供标准、优先和快速(即将推出)三种服务层级,满足不同可靠性和速度需求。

月之暗面(Moonshot AI)今日发布了其 K2 系列的最新型号——Kimi K2.7 Code,而 Fireworks AI 同步推出了 Day-0 支持。该模型沿用 K2 家族的架构:总参数 1T,每个 token 激活 32B,上下文窗口 256K,专为长周期代理编程任务优化。定价与月之暗面的公开价格一致:每百万输入 token 0.95 美元,每百万输出 token 4.00 美元,缓存命中每百万 0.19 美元。

最引人注目的变化并非基准分数本身。K2.7 Code 相比 K2.6 减少了约 30% 的推理 token,同时在编程评测中表现更优:Kimi Code Bench v2 提升 21.8%,Program Bench 提升 11.0%,MLS Bench Lite 提升 31.5%。通常模型通过增加推理来提升性能,而 K2.7 反其道而行之——用更少的思考获得更好的结果。这对于观察过编程代理在简单问题上反复兜圈的开发者来说,意义远超几个百分点的提升。

为什么减少推理 token 如此关键?在人类作为消费者的时代,token 成本几乎可以忽略不计。但代理改变了这一切。一个长周期编程任务可能发起数十次模型调用、工具调用和推理链,一小时消耗的 token 比一个人一年阅读的还多。更关键的是,成本不是简单相加,而是复合增长:每一轮的推理 token 会在后续轮次作为历史信息被反复读取,写一次却要读几十次。因此,减少 30% 的推理 token 带来的效益远高于降低 30% 的单价。单价只影响一次,而 token 的节省贯穿整个任务轨迹:更短的生成、更小的上下文、更快的循环、更少的重试。

K2.7 Code 在 Fireworks 上提供三种服务选项,针对突发性的代理流量设计。标准(Standard)为弹性按量付费,现有 API 调用无需修改。优先(Priority)通过设置 service_tier: 'priority' 来获得更强的准入控制,价格约为标准的 1.5 倍,主要用于可靠性而非速度。快速(Fast)是一条独立的高吞吐服务路径,以每秒 100+ 生成 token 的速度运行同一权重,价格约为标准的 2 倍,通过专用模型 ID 调用。对于受延迟约束的代理循环,快速模式与 K2.7 更短的推理链形成复合优势。快速模式即将推出,目前尚未完全就绪。

Fireworks 团队理解代理流量的突发性和不均衡性,开发者无需预留 GPU 或预测流量模式即可获得生产级可靠性。将关键代理流量路由到优先模式,其余保留在标准模式即可。快速模式上线后,将为延迟敏感的循环提供高吞吐路径。

Kimi K2.7 Code 现已可用,开发者可通过 cURL 命令或 Playground 试用。示例 API 调用如下:

curl https://api.fireworks.ai/inference/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $FIREWORKS_API_KEY" \ -d '{ "model": "accounts/fireworks/models/kimi-k2p7-code", "messages": [{"role": "user", "content": "Refactor this function for readability."}] }'

总之,Kimi K2.7 Code 通过减少推理 token 实现了更低的代理任务成本,而 Fireworks 的灵活服务选项使其适用于各种生产场景。