トークン最大化の終焉
トークン最大化(トークンを消費して生産性を偽装する行為)は、個人や企業がAIコストを認識するにつれて消えつつある。GitHub Copilotのクレジット制への移行、推論モデルやエージェントの登場により、トークン消費は劇的に増加した。AIプロバイダーは成長第一から収益重視へとシフトし、価格上昇を招いている。トークンの最適化と説明責任が新たな標準となりつつある。
トークン最大化(トークンを消費して生産性を偽装する行為)は、私がそれについて書く機会を得る前にさえも消えつつある。良いことだ。トークンを燃やして生産性の見せかけを作る行為は、会計士がそれについて知るまでしか続かない運命にあり、最も厳しい会計士は自分の小切手帳である。多くの開発者にAIのコストを考えさせたのは、GitHub Copilotの使用料金の変更だった。Copilotのコストは、無制限に使える月額料金から、一定数のクレジットを購入する月額料金に変わり、そのクレジットで選択したAIプロバイダーに支払う。1クレジットは0.01米ドル相当であり、クレジットを使い切った場合はアカウントをアップグレードするか、追加クレジットを都度購入できる。
問題はなぜこれがもっと早く起こらなかったかではなく、なぜ今起こったかである。トークン最大化は、AIにおける二つの大規模なトレンドの産物であり、かつその犠牲者でもある。第一に、OpenAIを皮切りに、主要なAIプロバイダーはすべて、収益性よりもユーザー成長を優先するブリッツスケーリング(blitzscaling)のゲームをしていた。AIサービスを無料で提供することでより多くのユーザーを獲得し、長期的にはエンドユーザー料金、ユーザーデータの販売、広告などから収益を上げる方法を見つけ出すだろう。このプロセスは必然的にエンシッティフィケーション(enshittification)へと至り、現在もその道筋にある。
第二に、トークン使用量は2025年末に爆発的に増加した。「推論モデル」の出現は、問題解決の過程で内部対話を維持するためにトークンを使用し、各プロンプトへの応答に使用されるトークン数を増加させた。推論トークンは、プロンプトに対する可能な応答についてのモデル自身との会話であり、多くの場合、プロンプトと応答自体よりも数が多い。ユーザーが推論プロセスを見るかどうかに関わらず(多くの場合見えない)、推論トークンは請求額に加算される。これらはモデルによって生成されるため「出力トークン」としてカウントされることが多く、入力トークンよりも高価である。
エージェントの出現も、ユーザーによるトークン消費率を倍増させた。2025年5月、Simon WillisonはAnthropicのHannah Moranによるエージェントの定義を引用した。「エージェントとは、ループ内でツールを使用するモデルである。」Tredenceブログは次のように書いている。「エージェントループは、AIが現在のデータを読み取り、その意味を考え、行動を選択し、実行し、何が起こったかをチェックし、やり直すという繰り返しのサイクルである。」Claude Code、OpenClaw、またはその他のエージェントが動作するのを見たことがあれば、単一のリクエストがモデルへの多数の呼び出しになり、それぞれが数百、場合によっては数千のトークンを使用することがわかるだろう。現在のリクエストに加えて、エージェントが生成する呼び出しには、タスクの累積されたコンテキスト全体と関連ドキュメントが含まれる可能性がある。推論トークンとエージェントの間で、トークン使用量は数百倍に増加する。
トークン使用量の増加は、問題が解決されタスクがより効果的に完了する結果になるのであれば問題にならないかもしれない。しかし、それはブリッツスケーラーの損失覚悟の価格設定と衝突する。市場を支配するために損失を出して運営する彼らの意欲には限界がある。AIユーザー数が増加しているかどうかに関わらず、ユーザー一人当たりの計算量、したがってコストは、エージェントの使用が増えるにつれて増大する。推論モデルはトークン使用量を増やし、エージェントが問題を悪化させ、そしてそれが価格上昇につながった。1 Microsoft/GitHubはCopilot顧客のAI請求書を支払いたくない。AIプロバイダー自身による全面的な値上げはまだ見られていない。しかし、GitHubのトークンクレジットは見られ、AnthropicとOpenAIがより高性能なモデルを古いモデルや低性能モデルよりも大幅に高く設定しているのを見ている。FableはOpus 4.8の2倍の価格であり、一部のライターはこの価格設定を「素晴らしい」と呼んでいるが、それはおそらく彼らがさらに大きな値上げを予想していたからだ。FableはAnthropicのより安価なモデルにタスクを委任できるが、初期のユーザーのほとんどは、Fableを使用するとトークン使用量が増加するのではなく増加することを観察している。AnthropicのエージェントSDKにおけるトークンベースの課金への切り替え(現在は保留中)は、安価なAIの時代が終わりに近づいていることを示す別のシグナルである。OpenAIの話も同様で、GPT 5.5は100万トークンあたりGPT 5.4の2倍のコストがかかる。
容量を考慮することも重要である。巨大なデータセンターがニュースになっているが、それらのデータセンターはまだ建設されていない。さらに重要なことに、それらのデータセンターを支えるのに必要な電力インフラ(送電線、発電機)もまだ建設されておらず、AI企業がその投資をコントロールできるものではない。データセンターの敷地内に自家発電施設を建設することは可能だが、それは彼らが熟知していない技術への巨額の投資である。そして、たとえ地元で発電しても、石炭のための鉄道、ガスのためのパイプラインなど、他のインフラが必要である。これは(まだ)データセンターの電力消費とその結果についてのエッセイではないが、トークン使用量の増加を制限する別の要因である。Anthropicの障害は容量に起因するとされており、AnthropicはSpaceXから未使用のデータセンター容量をリースすることで対応している。しかし、現在の容量では満たせない需要増加に対応するもう一つの方法は価格を上げて、支払える顧客に限定することである。その値上げは、マネージャー、会計士、個人開発者によって気づかれている。
トークンの最適化と説明責任は、トークン価格の上昇圧力の必然的な結果である。説明責任を構築する一つの方法は、より良いガバナンスによるものであり、Bennie Haelenが「補助金の終焉:ツールを使用するエージェントの実際のコスト」で述べている。より良いガバナンスは、エージェントとモデルが正確に何をしているかを把握できる可観測性レイヤーを構築することで達成される。うまく設計された可観測性レイヤーを使えば、モデルに送信されるデータが呼び出しごとに増加しているか、モデルが適切なツールを使用しているか、ツールが繰り返し呼び出されているか、そしてエージェントが効率的に動作しているかどうかを教えてくれる多くの他の情報を見ることができる。
トークン説明責任のもう一つの要素は、エージェントのリクエストを処理しているモデルを理解することである。汎用推論モデルは、Claude FableやOpus 4.8のような高価な高性能モデルから、十分に装備されたラップトップで動作するGemma 4 26Bのようなモデル、さらに小さなモデルまで多岐にわたる。「最高のものが必要だ、Opus 4.8かFableを最大推論で実行しよう」と言いたくなるが、ほとんどのリクエストはそのレベルの推論やコストを必要としない。エージェントは、各リクエストを処理するのに最適なモデルを決定できるようになるだろう。Fableは委任でき、モデルがエージェント機能を統合するにつれて、他のフロンティアプロバイダーも追随すると予想される。そして、フロンティアAIプロバイダーの外には活発なオープンモデルの世界がある。Vicki Boykisは、ローカルで動作するモデルが現在ではフロンティアモデルとほぼ同等に機能すると書いている。OpenRouterのようなツールは、ローカルで動作するオープンモデルを含む異なるモデルにリクエストをルーティングするモデル独立の方法を提供する。OpenRouterはOpenClaw、Claude Code、Cursor、Codex、その他のエージェントと統合してインテリジェントなルーティングを提供できる。
トークン最大化は死につつある。その名残が消え去るには時間がかかるだろうし、昇進への道をうまくすり抜けられると思う開発者や、「AIに全力で取り組む」と主張するマネージャーは常にいるだろう。しかし、自分の小切手帳であろうと会社の口座であろうと、責任を持ってトークンを使用することが今や標準となっている。トークンあたりの料金が上がるにつれて、トークンの最適化はますます重要になる。それは間違いない。