AI競争がなぜスピードにシフトしたのか
2026年初頭、AI競争はモデルのインテリジェンスから推論速度へとシフトしました。Google、Anthropic、OpenAIなどの主要ラボは、コーディング向けの高速推論モデルをリリースしました。高速推論はモデル開発と製品イテレーションを加速し、AIの進歩とビジネスの収益にとって重要な要素となっています。
2025年の大部分において、AI競争の焦点はモデルのインテリジェンスでした。しかし、過去3ヶ月で競争の焦点は変化しました。モデルのインテリジェンスは依然として重要ですが、すべての主要なフロンティアラボにおいて、推論速度が新たな緊急の焦点となっています。Googleはエージェント型コーディング向けに構築されたGemini 3 Flashを発表し、Gemini 3 Proの3倍の速度で動作します。Anthropicは速度重視のコーディングユースケース向けに、Claude Opus 4.6の2.5倍高速なエディションをリリースしました。OpenAIはCerebrasとの提携を発表し、GPT-5.3-Codex-Sparkをリリース。毎秒1,200トークン以上で動作し、OpenAIのコーディングモデルとしては最速です。
なぜ推論速度が突然これほど重要になったのでしょうか?それは、モデルがトークンを生成する速度が、現在、主要ラボのモデル反復速度と、より広範な経済におけるソフトウェア構築速度に直接影響を与えるからです。2月、OpenAIとAnthropicはともに、自社のコーディングモデルを使用して次世代のAIモデルを構築していることを明らかにしました。これは異例の開示です。OpenAIのブログ記事「ハーネス・エンジニアリング」では、次のように述べられています。「GPT-5.3-Codexは、自らの創造に貢献した最初のモデルです。Codexチームは初期バージョンを使用して、自身のトレーニングのデバッグ、デプロイメントの管理、テスト結果と評価の診断を行いました。チームはCodexが自身の開発をどれだけ加速できるかに驚かされました。」この記事では、3人のエンジニアからなるチームがCodexを使用して5ヶ月で100万行のプロダクションコードを生成したこと、つまり手作業で行う場合の約10分の1の時間で製品を構築したことが述べられています。人間は一行も手動でコードを書いていません。彼らはエージェントに指示し、プルリクエストをレビューし、障害を取り除きました。OpenAIが述べたように、「人間が操縦し、エージェントが実行する」のです。
Anthropicの話も似ています。彼らがClaude Opus 4.6の2.5倍高速なエディションをリリースしたとき、それは社内ですでに使用していた速度であることを認めました。AnthropicのClaude Code責任者であるBoris Chernyは、自身のコードの100%が2ヶ月以上にわたってAIによって書かれており、Claude Code自身のコードベースの約90%がClaude Code自身によって書かれていると公言しています。つまり、Anthropicは自社のコーディングツールを使用して次世代製品を構築しており、最近まで最速バージョンのモデルを自社用に留保していたのです。
その影響は深遠かつ明確です。ソフトウェア開発における再帰的瞬間が到来し、推論においては、トークン出力が速ければ速いほど、次の製品を迅速に出荷できます。すべてのラボはより高性能なモデルを構築するために競争しています。かつては、最大のトレーニングクラスターを持つ者が最初にゴールに到達しました。今では、他の条件が同じであれば、モデル開発中に最速の推論を使用する者が最初にゴールラインを越えます。推論速度は現在、次世代フロンティアモデル、ひいてはAGIの開発への重要な経路となっています。
高速推論が本当にこれほど重要であるならば、それは非常に価値があるはずです。これを検証する一つの方法は、Anthropicがモデルのインテリジェンスと速度に対してどのように価格設定しているかを見ることです。AnthropicのフラッグシップモデルOpus 4.6は、ミッドレンジのSonnet 4.6に対して66%のプレミアムで価格設定されています。一方、2.5倍高速なOpus 4.6 Fastは、ベースモデルの6倍の価格です。Anthropicの価格設定は、速度が独自のカテゴリーを正当化するほど重要であり、価値の面ではモデルインテリジェンスの一段階の向上よりもさらに価値がある可能性があるという考えを裏付けています。
推論速度はOpenAIやAnthropicにとって戦略的なだけでなく、ソフトウェア製品を構築し出荷するあらゆる企業にとって戦略的です。2つの企業、A社とB社が新しいAI駆動型CRMを構築しているとします。A社は最先端のフロンティアモデルを使用し、開発を6週間で完了します。B社は同じアイデア、チームの才能、資金を持っています。しかし、高速推論を実行するフロンティアモデルを使用し、最初のバージョンをわずか3週間で出荷します。その後の数週間で、B社はユーザーフィードバックに基づいて迅速に反復します。製品のバージョン3がバイラルになり、8週目でARR 1000万ドルに達します。一方、A社はまだ最初の製品リリースから学んでいるところです。この場合、高速推論は製品の反復と収益化までの時間を直接加速しました。
上記の例は少し空想的に聞こえるかもしれませんが、実際の経済で既に起こっています。Stripeの2025年年次書簡で、決済会社は、ローンチ後3ヶ月以内にARR 1000万ドルに達した企業の数が2024年比で2倍になったことを明らかにしました。これはほぼ間違いなく、エージェント型コーディングの採用拡大によって推進されています。2026年には、開発者が2025年よりも一桁速い速度で動作するさらに強力なコーディングエージェントを使用するため、さらに劇的な加速が見込まれます。
上記のパターンはスタートアップだけでなく、エンタープライズにも当てはまります。2026年1月は、あらゆるステージと規模のSaaS企業にとっての決算日でした。チームはプロダクトスタックと収益モデルを再構築するために慌てています。最速かつ最も高性能なコーディングエージェントを持つ企業は、ポストエージェント経済で足場を見つける可能性が高いです。
スピードは常にデジタル経済の原動力でした。1990年代には、企業は購入できる限り最速のコンピューターを購入しました。2000年代には、最速のインターネット接続を確保するために競争しました。AI時代において、高速推論は重要なインフラです。Cerebrasは初日からスピードに注力してきました。業界の軌跡——モデルがモデルを構築し、コーディングエージェントが手動開発に取って代わり、市場投入速度がトークンスループットの関数になる——を見ると、スピードの重要性は今後ますます高まることは明らかです。