AI News HubLIVE
サイト内リライト3 分で読了

Fireworks 上の Kimi K2.7 Code:より優れたエージェント、タスクあたりの低コスト、初日利用可能

Moonshot AI は、K2 シリーズの最新コーディングモデル「Kimi K2.7 Code」をリリースし、Fireworks AI で初日からサポートを開始しました。このモデルは前世代の K2.6 と比べて推論トークンを 30% 削減しながら、コーディングベンチマークで高いスコアを達成しています。推論トークンの削減により、エージェントワークフローでのタスク完了コストが大幅に低減されます。Fireworks は Standard、Priority、Fast(近日公開)の 3 つのサービスオプションを提供し、信頼性と速度のニーズに応えます。

Moonshot AI は本日、K2 シリーズの最新モデル「Kimi K2.7 Code」をリリースし、Fireworks AI は即座に Day-0 サポートを開始しました。本モデルのアーキテクチャは K2 ファミリーと同じく、総パラメータ 1T、トークンあたり 32B アクティブ、コンテキストウィンドウ 256K であり、長期エージェントコーディングタスクに最適化されています。価格設定は Moonshot の公開レートと同一で、入力 100 万トークンあたり 0.95 ドル、出力 100 万トークンあたり 4.00 ドル、キャッシュヒット時は 0.19 ドルです。

最も注目すべき点はベンチマークスコアそのものではありません。K2.7 Code は K2.6 と比較して推論トークンを約 30% 削減しながら、コーディング評価でより高いスコアを達成しています。Kimi Code Bench v2 で 21.8%、Program Bench で 11.0%、MLS Bench Lite で 31.5% の向上です。通常、モデルは推論を増やすことで性能を向上させますが、K2.7 は逆のアプローチを取っています。より少ない思考でより良い結果を出すのです。コーディングエージェントが単純な問題で堂々巡りするのを見たことがある開発者には、これがベンチマーク上の数ポイント以上の意味を持つことが理解できるでしょう。

推論トークンの削減がなぜ重要なのでしょうか?人間が消費者である時代には、トークンコストはほぼ無視できました。しかしエージェントは状況を一変させました。単一の長期コーディングタスクは、数十回のモデル呼び出し、ツール呼び出し、推論チェーンを発生させ、1 時間で人間が 1 年に読む量を超えるトークンを消費します。そしてコストは単純に加算されるのではなく、複合的に増大します。各ターンは履歴を引き継ぐため、ターン 3 の冗長な推論が以降のすべてのターンで入力として再読込されます。トークンを一度書き出すコストに加え、それを何十回も読み戻すコスト、さらに価格表には現れない遅いループや再試行のコストが発生します。

したがって、30% の推論トークン削減は、30% の価格削減よりも価値があると私たちは考えます。価格削減はトークンあたり一度だけ適用されますが、トークン規律は軌道全体に及びます。生成の短縮、後続ターンのコンテキスト縮小、ループの高速化、再試行の減少です。

このことから、私たちが繰り返し導き出す結論は次のとおりです。人間が消費者だった時代にはトークンあたりのレートカードは意味がありましたが、エージェントにとっては完了タスクあたりのコストが真の単位です。K2.7 Code のレートカードは K2.6 とほぼ同じですが、完了タスクあたりのコストは大幅に低くなっています。これこそが私たちが注目する数字です。

モデル効率とサービング効率は積み重なります。高速推論での推論トークン削減は、単に安価になるだけでなく、ループを短縮します。

Kimi K2.7 Code は Fireworks のサーバーレスで動作し、バースト的なエージェントトラフィック向けに設計された 3 つのサービングオプションを提供します。

Standard は弾力的な従量課金制のデフォルトで、既存の API 呼び出しはそのまま動作します。Priority はピーク時の混雑でトラフィックが捨てられることを許容できない場合に使用します。service_tier: "priority" を設定することで、共有フリート上でより強力なアドミッションコントロールが得られ、価格は Standard の約 1.5 倍です。速度ではなく信頼性が重要な場合に適しています。Fast は別の高スループットサービングパスで、同じ重みを毎秒 100 以上の生成トークンで実行し、価格は Standard の約 2 倍です。専用の Fast モデル ID を介してアクセスします。エージェントループで実時間が制約となる場合、Fast と K2.7 の短い推論チェーンの組み合わせが相乗効果を発揮します。K2.7 Code の Fast はまだ完全には準備できていませんが、近日中に利用可能になる予定です。

Fireworks はエージェントトラフィックがバースト的で不均一であることを理解しています。開発者は本番品質の信頼性を得るために GPU を予約したりトラフィックパターンを予測したりする必要はありません。重要なエージェントトラフィックは Priority にルーティングし、その他は Standard に残せばよいのです。Fast が提供されれば、レイテンシ制約のあるループ向けの高スループットパスが追加されます。

Kimi K2.7 Code は現在利用可能です。開発者は cURL コマンドまたは Playground で試用できます。API 呼び出しの例は次のとおりです。

curl https://api.fireworks.ai/inference/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $FIREWORKS_API_KEY" \ -d '{ "model": "accounts/fireworks/models/kimi-k2p7-code", "messages": [{"role": "user", "content": "Refactor this function for readability."}] }'

以上、Kimi K2.7 Code は推論トークンの削減によりエージェントタスクのコストを低減し、Fireworks の柔軟なサービスオプションにより様々な本番環境に対応します。