AI News HubLIVE
サイト内リライト2 分で読了

Cerebras、Kimi K2.6の推論をエンタープライズ向けに提供

Cerebrasは、トリリオンパラメータのオープンウェイトモデルKimi K2.6のエンタープライズ顧客トライアルを開始しました。このモデルはコーディングとエージェントタスクで最先端の性能を発揮し、推論速度は毎秒981トークンと、GPUクラウドよりも6.7倍高速で、リアルタイムのエージェンティックコーディングを実現します。

ソースCerebras Blog

Cerebrasは本日、エンタープライズ顧客向けにトリリオンパラメータのオープンウェイトモデルKimi K2.6のトライアルを開始したと発表しました。Kimi K2.6はコーディングおよびエージェントワークにおいて広く認知されており、最も頻繁にリクエストされるモデルの一つです。Cerebrasは高速推論のリーダーとして知られ、GLM-4.7、GPT-OSS-120B、Qwen 3など多くのオープンウェイトモデルでベンチマークを打ち立て、OpenAIやCognitionなどの顧客にエージェンティックコーディングモデルで劇的な高速化を提供してきました。

Artificial Analysisによる測定では、Cerebras上のKimi K2.6は1秒間に981出力トークンを達成し、次に高速なGPUベースのクラウドの6.7倍、中央値の推論プロバイダーの23倍の速度です。10,000トークンの入力(プロンプト処理、推論、500トークンの生成を含む)に対して、Cerebrasは5.6秒で完全な応答を提供し、公式のKimiエンドポイントの163.7秒と比較して29倍の改善です。

Kimi K2.6はコーディングとエージェントワークで最先端のオープンウェイトモデルとして広く認められています。SWE-Bench Proで58.6%を記録し、Claude Opus 4.6を上回り、GPT-5.4に匹敵します。また、Humanity's Last ExamやDeepSearchQAなどのエージェンティックベンチマークでリードしています。開発者はこれをクローズドソースのフロンティアモデルに対するオープンな代替として採用しており、特にコーディングにおいて、クリーンなフロントエンドデザインへの嗜好がフルスタックアプリケーション生成で人気を博しています。バージョン2.6はその機能をフロントエンドからフルスタックワークフロー(認証、データベース操作、長期エージェント実行を含む)に拡張します。

Cerebrasのウェハースケールエンジンは大規模処理向けに設計されています。CS-3システムのクラスターは、マルチトリリオンパラメータモデルのトレーニングと推論の両方をサポートするように構成可能であり、Cerebrasは大規模モデルを効率的に提供するためのスタック最適化に多大なエンジニアリングリソースを費やしてきました。CerebrasはKimi K2.6をオリジナルの4ビット重みで保存し、計算は16ビット浮動小数点で行い、最適な精度を実現します。重みは複数のウェハーに分散され、活性値はウェハー間でストリーミングされます。層間の通信はすべてオンチップネットワークファブリックを介して行われ、その帯域幅はNVL72のNVLinkの200倍以上です。カスタムカーネルと投機的デコードを組み合わせることで、CerebrasはトリリオンパラメータのMoEモデルを毎秒1,000トークン近くで提供し、世界記録を樹立しました。

エージェンティックコーディングは大規模言語モデルの最も価値の高いユースケースとなり、推論速度に最も敏感なワークロードです。毎秒1,000トークン近くの速度で、KimiはClaude Opusなどの人気モデルよりも一桁速くコードを生成します。開発者は迅速に反復し、最終的なソリューションにより早く到達し、複数のエージェントを起動して切り替える代わりに単一のタスクに集中できます。フロントエンドの反復はほぼ瞬時に感じられ、コードのリファクタリングや困難なバグ修正は数分の一の時間で完了します。

Cerebrasは現在、エンタープライズ顧客向けにK2.6のトライアルを提供しています。エージェンティックコーディング、ディープリサーチ、または推論速度がボトルネックとなっている本番AIワークロードを実行している場合は、お問い合わせください。