2026-05-20 09:24 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

Cerebras、Kimi K2.6の推論をエンタープライズ向けに提供

Cerebrasは、トリリオンパラメータのオープンウェイトモデルKimi K2.6のエンタープライズ顧客トライアルを開始しました。このモデルはコーディングとエージェントタスクで最先端の性能を発揮し、推論速度は毎秒981トークンと、GPUクラウドよりも6.7倍高速で、リアルタイムのエージェンティックコーディングを実現します。

ソースCerebras Blog

記事インテリジェンス

エンジニア上級

要点

CerebrasはCS-3システム上でKimi K2.6を稼働し、Artificial Analysis測定で981トークン/秒を達成。これはGPUベースの次高速クラウドの6.7倍。
K2.6はSWE-Bench Proで58.6を記録し、Claude Opus 4.6やGPT-5.4に匹敵するオープンウェイトモデル。
Cerebrasのウェハースケールエンジンはオンチップネットワークで高い帯域幅を実現し、1兆パラメータのMoEモデルを効率的に処理。
エンタープライズ顧客は現在、Kimi K2.6のトライアルに申し込むことが可能。

重要な理由

このニュースが重要なのは、CerebrasはCS-3システム上でKimi K2.6を稼働し、Artificial Analysis測定で981トークン/秒を達成。これはGPUベースの次高速クラウドの6.7倍ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Cerebrasは本日、エンタープライズ顧客向けにトリリオンパラメータのオープンウェイトモデルKimi K2.6のトライアルを開始したと発表しました。Kimi K2.6はコーディングおよびエージェントワークにおいて広く認知されており、最も頻繁にリクエストされるモデルの一つです。Cerebrasは高速推論のリーダーとして知られ、GLM-4.7、GPT-OSS-120B、Qwen 3など多くのオープンウェイトモデルでベンチマークを打ち立て、OpenAIやCognitionなどの顧客にエージェンティックコーディングモデルで劇的な高速化を提供してきました。

Artificial Analysisによる測定では、Cerebras上のKimi K2.6は1秒間に981出力トークンを達成し、次に高速なGPUベースのクラウドの6.7倍、中央値の推論プロバイダーの23倍の速度です。10,000トークンの入力（プロンプト処理、推論、500トークンの生成を含む）に対して、Cerebrasは5.6秒で完全な応答を提供し、公式のKimiエンドポイントの163.7秒と比較して29倍の改善です。

Kimi K2.6はコーディングとエージェントワークで最先端のオープンウェイトモデルとして広く認められています。SWE-Bench Proで58.6%を記録し、Claude Opus 4.6を上回り、GPT-5.4に匹敵します。また、Humanity's Last ExamやDeepSearchQAなどのエージェンティックベンチマークでリードしています。開発者はこれをクローズドソースのフロンティアモデルに対するオープンな代替として採用しており、特にコーディングにおいて、クリーンなフロントエンドデザインへの嗜好がフルスタックアプリケーション生成で人気を博しています。バージョン2.6はその機能をフロントエンドからフルスタックワークフロー（認証、データベース操作、長期エージェント実行を含む）に拡張します。

Cerebrasのウェハースケールエンジンは大規模処理向けに設計されています。CS-3システムのクラスターは、マルチトリリオンパラメータモデルのトレーニングと推論の両方をサポートするように構成可能であり、Cerebrasは大規模モデルを効率的に提供するためのスタック最適化に多大なエンジニアリングリソースを費やしてきました。CerebrasはKimi K2.6をオリジナルの4ビット重みで保存し、計算は16ビット浮動小数点で行い、最適な精度を実現します。重みは複数のウェハーに分散され、活性値はウェハー間でストリーミングされます。層間の通信はすべてオンチップネットワークファブリックを介して行われ、その帯域幅はNVL72のNVLinkの200倍以上です。カスタムカーネルと投機的デコードを組み合わせることで、CerebrasはトリリオンパラメータのMoEモデルを毎秒1,000トークン近くで提供し、世界記録を樹立しました。

エージェンティックコーディングは大規模言語モデルの最も価値の高いユースケースとなり、推論速度に最も敏感なワークロードです。毎秒1,000トークン近くの速度で、KimiはClaude Opusなどの人気モデルよりも一桁速くコードを生成します。開発者は迅速に反復し、最終的なソリューションにより早く到達し、複数のエージェントを起動して切り替える代わりに単一のタスクに集中できます。フロントエンドの反復はほぼ瞬時に感じられ、コードのリファクタリングや困難なバグ修正は数分の一の時間で完了します。

Cerebrasは現在、エンタープライズ顧客向けにK2.6のトライアルを提供しています。エージェンティックコーディング、ディープリサーチ、または推論速度がボトルネックとなっている本番AIワークロードを実行している場合は、お問い合わせください。