現在のLLMコストが持続可能でない理由
AIコストの高騰に悩む企業が多い中、性能の頭打ち、オープンウェイトモデル、チップ改良、スイッチングコストゼロ、ローカルモデルという5つの要因が価格低下を促進する。
多くの企業がAIコストの高騰に苦しんでいる。Uberは年間AI予算をわずか4ヶ月で使い切り、Microsoft、Salesforce、GitHubも従業員のAI支出削減に動いている。
一方で、AIはプログラミングを容易にし、データ解釈、スライド作成、アプリ・ウェブサイト設計などの分野で役立っている。現在、大手AIラボは「フロンティアモデル」を提供しており、多様なタスクで優れた性能を発揮する。フロンティアAIラボは研究とホスティングを自前で行うため、コストは最高額となる。例えばGPT 5.5は、入力100万トークンあたり5ドル、出力100万トークンあたり30ドルで、OpenRouter上で最も高価なモデルだ。筆者がこのモデルで50ファイルのTypeScript型修正を行ったところ、54ドルかかった。
しかし、モデル性能の停滞、オープンウェイトモデルの公開、チップとモデルの改良、スイッチングコストゼロ、ローカルモデルの台頭により、AIラボが現在の高価格を維持することは困難になるだろう。
性能の頭打ち:モデルリリースごとに改善は見られるが、その幅度は小さくなっている。新たなブレークスルーがない限り、学習と推論能力の拡大には限界がある。また、トレーニングデータの問題もある。ほとんどのAIラボはデジタル・印刷メディアのデータをほぼ全て取り込んでおり、データセットの改善は困難だ。つまり、性能向上による価格上昇のトレンドは維持しにくい。Claude Opus 4.8が4.7と同じ価格であることがその証拠で、性能向上が止まれば競争により価格は下落する。
オープンウェイトモデル:OpenAIは2022年のChatGPT発表時に大きなリードを持っていたが、その差は縮まり、Anthropicが2025-26年にトップに立った。現在、GLM-5.2のようなオープンウェイトモデルがコーディングベンチマークでGPTやOpusを上回り、コストはGPT 5.5の10分の1だ。フロンティアAIラボは推論コストだけでなく、研究、データ収集・キュレーション、モデルトレーニング(数千万~数億ドル)、人件費、マーケティング費用を回収する必要がある。一方、オープンウェイトモデルが公開されれば、どの推論プロバイダーも簡単にホスティングでき、推論コストにわずかなマークアップを加えるだけで済む。これはフロンティアAIラボを運営するよりはるかに安い。
チップとモデルの改良:Cerebras、Groq、GoogleなどはAI専用シリコンが必要であり、通常のGPUでは不十分だと認識している。専用チップの設計は高価だが、アーキテクチャが完成すれば大量生産は容易で、推論コストは大幅に下がる。例えばTPUはNvidia H100 GPUより30~70%安い。こうした進歩は続き、トークン単価を引き下げる。モデルアーキテクチャも進化しており、キャッシングやMoEなどの手法で精度を保ちながら速度を向上させている。
スイッチングコストゼロ:Windows、Office、Salesforce、Hubspotなどの従来のソフトウェアには、交換不可能という重要な堺があった。CRMを半日で入れ替えることはできず、数ヶ月かかった。AIモデルにはそのような堺がない。AIラボの参入が増え、オープンウェイトモデルが増えるにつれ、スイッチングコストゼロが急速な価格暴落を引き起こす。OpenRouter.aiのようなAIゲートウェイはモデル切り替えを数秒で可能にし、プロバイダーを動的に変更するプログラムも組める。
ローカルモデル:最後に最も重要な要因は、ユーザーがローカルモデルを実行できる能力だ。現在はほぼ全員がクラウドモデルを使用しており、ローカルモデルは大きすぎるか遅すぎる。しかし、チップの進歩により、4~5年後には状況が変わるだろう。新しいチップはローカルでモデルを実行し、RAM価格の暴落によりコンピュータやスマートフォンへの展開が容易になる。多くのOSがモデル展開の仕組みを提供し、ローカルアプリがモデルに接続するインターフェースを提供するだろう。その時、クラウドモデルは最も複雑なタスクにのみ使われ、コード補完、校正、事実確認などの単純なタスクはローカルで処理される。ユーザーは20ドルや200ドルのサブスクリプションを必要としなくなる。
結論として、上記の要因の1つ以上によって価格圧力が生じ、最終的には消費者にとって良い方向に向かうだろう。