AI News HubLIVE
站内改写4 分で読了

Gemini 3.5 Flash vs Cerebras上のKimi K2.6:どちらが速いか

Google I/O 2026で、Googleは速度を最優先したGemini 3.5 Flashを発表しました。一方、Cerebras上で動作するKimi K2.6は5.4倍の出力速度と3倍の低レイテンシを実現しています。本記事では、知能、速度、エンドツーエンド応答、レイテンシ、オープンvsクローズドモデルを比較します。

ソースCerebras Blog

Google I/O 2026で、Googleは型破りな動きを見せました。知能を中心とした新しいフラッグシップモデルではなく、まず速度のために設計されたGemini 3.5 Flashを発表したのです。

モデルがより複雑なコーディングタスクを処理できるようになるにつれ、プロンプトの完了に必要な時間は秒から分、時には数時間にまで伸びています。その結果、開発者はより高速な推論オプションを求めています。今年初め、OpenAIとAnthropicはともに、主要モデルの高速バリエーションを発表し、ベースモデルの3倍の価格を設定しました。Googleもこれに加わり、速度を後付けではなく目玉機能としました。

Cerebrasは高速推論の分野で認められたリーダーであり、OpenAI、Kimi、GLM、Qwenの各モデルファミリーで速度記録を打ち立てています。本日、Google最速のモデルと、Cerebras上で動作するKimi K2.6を直接対決させ、どの推論プロバイダーが最も速くタスクを完了できるかを検証します。

知能

Kimi K2.6は、Moonshot AIによる1兆パラメータのMixture-of-Expertsモデルで、トークンあたり320億パラメータがアクティブになります。これは、MiMo V2.5、DeepSeek V4、GLM-5.1などの高性能な仲間の中で、主要なオープンウェイトモデルです。特にコーディングで人気があり、CursorのComposer 2.5のベースモデルとしても使用されています。対照的に、Gemini 3.5 Flashは非公開の規模のクローズドモデルで、GoogleのTPU上で動作するように設計されています。知能はGemini 3.1 Proよりわずかに劣りますが、何よりも速度を重視して設計されています。

Gemini 3.5 FlashとKimi K2.6は、どちらもフロンティアに近いモデルクラスに属するため、理想的な比較対象です。Artificial Analysis Intelligence Index(10のベンチマークの複合)では、両モデルは互角で、53.9(Kimi K2.6)と55.3(Gemini 3.5 Flash)を記録しています。特にコーディングでは、Kimi K2.6が際立っています。SWE-Bench Proで58.6%のスコアをリードし、Gemini 3.5 Flashの55.1%を上回っています。

推論速度の主要な指標は、出力トークン数/秒です。出力速度が速いほど、モデルはコーディングタスクを高速に完了できます。Artificial Analysisは、標準的な10,000トークンの入力でこれをテストし、出力トークンが返ってくる速度を測定します。

Gemini 3.5 Flashはこのベンチマークで181トークン/秒を達成し、Claude Opus 4.8やGPT-5.5の約60トークン/秒を大幅に上回ります。しかし、Cerebras上のKimi K2.6は別格です。Cerebrasは981出力トークン/秒を記録し、Gemini 3.5 Flashの5.4倍の速さです。Google自身のステージデモ(次世代TPUでGemini 3.5 Flashが約280トークン/秒で動作しているように見える)と比較しても、Cerebrasは3倍以上高速です。これは、モデル全体をオンチップに格納し、外部メモリからのロードを不要にするCerebras Wafer Scale Engine上でモデルを実行することで実現されています。

エンドツーエンド応答

速度のより包括的な尺度は、エンドツーエンド応答です。これには、入力処理、思考や推論時間、出力生成が含まれます。Artificial Analysisの測定(10,000入力トークン、500出力トークン)では、Gemini 3.5 Flashは17.5秒でタスクを完了しました。Cerebras上のKimi K2.6は5.6秒で完了しました。これは、入力処理を含めても(マルチターンコーディングタスクでは増加する傾向がある)、Cerebras上のKimi K2.6が3.5 Flashの数分の一の時間でタスクを完了できることを示しています。

レイテンシ

音声エージェントは、カスタマーサービス、教育、車載アシスタントでますます使用されています。レイテンシはここで最も重要な指標であり、レイテンシが高いほどユーザー離脱が直接増加します。最初のトークンまでの時間が500ms以上になると、会話はトランシーバーのように感じられます。最もスマートなモデルは応答に数秒かかることがあり、その結果、開発者は音声アプリケーションであまりスマートではないモデルを選択するようになりました。

このトレードオフはもはや必要ありません。最新のマルチターン音声エージェントベンチマーク(Kwindlaによるaiewf-eval)では、Cerebras上のKimi K2.6が452msの最初のトークンまでの時間で分野最速のレイテンシを記録し、リアルタイム音声に十分な速さを持つ初のフロンティアクラスモデルとなりました。これは真の初めてです:思考連鎖推論を有効にした状態で、500msの壁を突破した1兆パラメータモデルです。比較として、Googleの真新しい速度最適化リリースであるGemini 3.5 Flashは960ms、Claude Sonnet 4.6は850msです。

オープン vs クローズド

ベンチマークのチャートに現れないもう1つの側面があります。Kimi K2.6はオープンです。ウェイトは修正MITライセンスの下で公開されており、微調整、検査、およびCerebrasを含む任意のインフラストラクチャ上で実行することができます。Gemini 3.5 Flashはクローズドであり、Google経由でのみ利用可能です。モデルがそのまま完全に満足できるものであっても、バックアップとしてのセカンドベンダーはなく、単一プロバイダーの価格、廃止スケジュール、アップタイムに依存することになります。

結論

すべての基盤モデル構築企業は、現在高速推論APIエンドポイントを提供しています。Gemini 3.5 Flashは、Artificial Analysisの測定で181トークン/秒と、その中で最速です。Cerebras上のKimi K2.6は知能でそれに匹敵し、出力を5倍高速に生成し、エンドツーエンドのプロンプトを3分の1の時間で完了します。さらに、リアルタイム音声に十分な速さを持つ初のフロンティアモデルです。オープンウェイトのおかげで、モデルは自由に微調整してデプロイできます。速度と知能——今やCerebrasで両方を手に入れることができます。