2026-06-17 05:46 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Fireworks 上的 Kimi K2.7 Code：更優的代理，更低的單任務成本，上線首日可用

月之暗面（Moonshot AI）發佈 Kimi K2.7 Code，這是 K2 系列的最新編程模型，現已通過 Fireworks AI 提供 Day-0 支持。相比 K2.6，該模型推理 token 減少約 30%，同時在編程評測中得分更高。推理 token 的減少顯著降低了代理工作流的單任務成本。Fireworks 提供標準、優先和快速（即將推出）三種服務層級，滿足不同可靠性和速度需求。

來源Fireworks AI Blog

月之暗面（Moonshot AI）今日發佈了其 K2 系列的最新型號——Kimi K2.7 Code，而 Fireworks AI 同步推出了 Day-0 支持。該模型沿用 K2 家族的架構：總參數 1T，每個 token 激活 32B，上下文窗口 256K，專為長週期代理編程任務優化。定價與月之暗面的公開價格一致：每百萬輸入 token 0.95 美元，每百萬輸出 token 4.00 美元，緩存命中每百萬 0.19 美元。

最引人注目的變化並非基準分數本身。K2.7 Code 相比 K2.6 減少了約 30% 的推理 token，同時在編程評測中表現更優：Kimi Code Bench v2 提升 21.8%，Program Bench 提升 11.0%，MLS Bench Lite 提升 31.5%。通常模型通過增加推理來提升性能，而 K2.7 反其道而行之——用更少的思考獲得更好的結果。這對於觀察過編程代理在簡單問題上反覆兜圈的開發者來説，意義遠超幾個百分點的提升。

為什麼減少推理 token 如此關鍵？在人類作為消費者的時代，token 成本幾乎可以忽略不計。但代理改變了這一切。一個長週期編程任務可能發起數十次模型調用、工具調用和推理鏈，一小時消耗的 token 比一個人一年閲讀的還多。更關鍵的是，成本不是簡單相加，而是複合增長：每一輪的推理 token 會在後續輪次作為歷史信息被反覆讀取，寫一次卻要讀幾十次。因此，減少 30% 的推理 token 帶來的效益遠高於降低 30% 的單價。單價隻影響一次，而 token 的節省貫穿整個任務軌跡：更短的生成、更小的上下文、更快的循環、更少的重試。

K2.7 Code 在 Fireworks 上提供三種服務選項，針對突發性的代理流量設計。標準（Standard）為彈性按量付費，現有 API 調用無需修改。優先（Priority）通過設置 service_tier: 'priority' 來獲得更強的准入控制，價格約為標準的 1.5 倍，主要用於可靠性而非速度。快速（Fast）是一條獨立的高吞吐服務路徑，以每秒 100+ 生成 token 的速度運行同一權重，價格約為標準的 2 倍，通過專用模型 ID 調用。對於受延遲約束的代理循環，快速模式與 K2.7 更短的推理鍊形成複合優勢。快速模式即將推出，目前尚未完全就緒。

Fireworks 團隊理解代理流量的突發性和不均衡性，開發者無需預留 GPU 或預測流量模式即可獲得生產級可靠性。將關鍵代理流量路由到優先模式，其餘保留在標準模式即可。快速模式上線後，將為延遲敏感的循環提供高吞吐路徑。

Kimi K2.7 Code 現已可用，開發者可通過 cURL 命令或 Playground 試用。示例 API 調用如下：

curl https://api.fireworks.ai/inference/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $FIREWORKS_API_KEY" \ -d '{ "model": "accounts/fireworks/models/kimi-k2p7-code", "messages": [{"role": "user", "content": "Refactor this function for readability."}] }'

總之，Kimi K2.7 Code 通過減少推理 token 實現了更低的代理任務成本，而 Fireworks 的靈活服務選項使其適用於各種生產場景。