AI News HubLIVE
站內改寫2 分鐘閱讀

Fireworks 上的 Kimi K2.7 Code:更優的代理,更低的單任務成本,上線首日可用

月之暗面(Moonshot AI)發佈 Kimi K2.7 Code,這是 K2 系列的最新編程模型,現已通過 Fireworks AI 提供 Day-0 支持。相比 K2.6,該模型推理 token 減少約 30%,同時在編程評測中得分更高。推理 token 的減少顯著降低了代理工作流的單任務成本。Fireworks 提供標準、優先和快速(即將推出)三種服務層級,滿足不同可靠性和速度需求。

月之暗面(Moonshot AI)今日發佈了其 K2 系列的最新型號——Kimi K2.7 Code,而 Fireworks AI 同步推出了 Day-0 支持。該模型沿用 K2 家族的架構:總參數 1T,每個 token 激活 32B,上下文窗口 256K,專為長週期代理編程任務優化。定價與月之暗面的公開價格一致:每百萬輸入 token 0.95 美元,每百萬輸出 token 4.00 美元,緩存命中每百萬 0.19 美元。

最引人注目的變化並非基準分數本身。K2.7 Code 相比 K2.6 減少了約 30% 的推理 token,同時在編程評測中表現更優:Kimi Code Bench v2 提升 21.8%,Program Bench 提升 11.0%,MLS Bench Lite 提升 31.5%。通常模型通過增加推理來提升性能,而 K2.7 反其道而行之——用更少的思考獲得更好的結果。這對於觀察過編程代理在簡單問題上反覆兜圈的開發者來説,意義遠超幾個百分點的提升。

為什麼減少推理 token 如此關鍵?在人類作為消費者的時代,token 成本幾乎可以忽略不計。但代理改變了這一切。一個長週期編程任務可能發起數十次模型調用、工具調用和推理鏈,一小時消耗的 token 比一個人一年閲讀的還多。更關鍵的是,成本不是簡單相加,而是複合增長:每一輪的推理 token 會在後續輪次作為歷史信息被反覆讀取,寫一次卻要讀幾十次。因此,減少 30% 的推理 token 帶來的效益遠高於降低 30% 的單價。單價隻影響一次,而 token 的節省貫穿整個任務軌跡:更短的生成、更小的上下文、更快的循環、更少的重試。

K2.7 Code 在 Fireworks 上提供三種服務選項,針對突發性的代理流量設計。標準(Standard)為彈性按量付費,現有 API 調用無需修改。優先(Priority)通過設置 service_tier: 'priority' 來獲得更強的准入控制,價格約為標準的 1.5 倍,主要用於可靠性而非速度。快速(Fast)是一條獨立的高吞吐服務路徑,以每秒 100+ 生成 token 的速度運行同一權重,價格約為標準的 2 倍,通過專用模型 ID 調用。對於受延遲約束的代理循環,快速模式與 K2.7 更短的推理鍊形成複合優勢。快速模式即將推出,目前尚未完全就緒。

Fireworks 團隊理解代理流量的突發性和不均衡性,開發者無需預留 GPU 或預測流量模式即可獲得生產級可靠性。將關鍵代理流量路由到優先模式,其餘保留在標準模式即可。快速模式上線後,將為延遲敏感的循環提供高吞吐路徑。

Kimi K2.7 Code 現已可用,開發者可通過 cURL 命令或 Playground 試用。示例 API 調用如下:

curl https://api.fireworks.ai/inference/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $FIREWORKS_API_KEY" \ -d '{ "model": "accounts/fireworks/models/kimi-k2p7-code", "messages": [{"role": "user", "content": "Refactor this function for readability."}] }'

總之,Kimi K2.7 Code 通過減少推理 token 實現了更低的代理任務成本,而 Fireworks 的靈活服務選項使其適用於各種生產場景。