2026-07-01 00:22 UTC+9サイト内リライト3 分で読了更新: 2026-07-01 00:27 UTC+9

OpenAI、Anthropic、Google——6ヶ月間に14回の価格変更、ほとんどのチームが見逃している

2026年1月から6月にかけて、OpenAI、Anthropic、Googleは合わせて14回のモデル価格変更を実施。モデルの廃止、隠れたトークンカテゴリ、静かな機能変更により、実際のコストが掲載価格から乖離します。予算超過を防ぐには、コールあたりのコスト追跡が不可欠です。

ソースHacker News AI著者: aitoukhrib

記事インテリジェンス

エンジニア中級

要点

2026年上半期に主要AIプロバイダー3社で14回の価格変更、多くのチームが気づかず。
モデル廃止により、より高価またはトークン消費の多い後継にサイレント移行。
思考トークンやコンテキスト追加料金などの隠れカテゴリがコストを大幅に増加。
総支出だけでなく、コールあたりのコストを監視することが予算超過防止に重要。

重要な理由

このニュースが重要なのは、2026年上半期に主要AIプロバイダー3社で14回の価格変更、多くのチームが気づかずためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

先月LLM APIの価格を確認しただろうか。あるいは2ヶ月前。モデルを選び、それに基づいて予算を立て、その後は放置していたかもしれない。

問題は、予算を組んだ価格が、今実際に支払っている価格とは限らないことだ。

2026年1月から6月の間に、OpenAI、Anthropic、Googleは合わせて14回の価格変更を行った。値下がりしたものもあれば、値上がりしたものもある。モデルが廃止され、より高価な後継モデルに置き換わったものもある。どのプロバイダーもメールで知らせることはなかった。

誰も話題にしない変更

まず、実際に何が変わったのかを見てみよう。

OpenAIは2026年第1四半期にGPT-4 Turboを廃止した。コードがまだgpt-4-turboを指している場合、サイレントにGPT-4oにリダイレクトされる。ログ上の名前は同じだが、価格は異なる。GPT-4oは旧Turboよりもトークンあたりのコストが安いが、出力トークン単価は$0.03/Mから$0.01/Mに下がった。一見お得に見えるが、プロンプトはTurboの動作に最適化されており、GPT-4oは同じプロンプトで30～40%多くの出力トークンを生成する。トークン単価は下がったが、呼び出しあたりのコストは上昇した。

Anthropicは2026年5月にClaude Sonnet 4を投入、入力$3.00/M。Claude Sonnet 3.5も$3.00/Mで同じ価格？そうではない。Sonnet 4は複雑なクエリに対してデフォルトで拡張思考を使用し、思考トークンは出力レートと同じ料金がかかる。Sonnet 3.5で$0.04だったプロンプトが、Sonnet 4では目に見えない思考オーバーヘッドのために$0.12になる可能性がある。コードに何も変更を加えていないのに、3倍のコストだ。

GoogleはGemini 2.5 Flashの入力価格を$0.15/Mに維持した。素晴らしい価格だ。しかし、ほとんどのチームが見逃しているコンテキスト長の追加料金がある。128Kトークンを超えると、料金は2倍の$0.30/Mになる。長いドキュメントでRAGを行っている場合、実際のコストは価格ページの見出しの2倍になる。

なぜ請求書が価格ページと一致しないのか

価格ページはトークンあたりのレートを示す。請求書は実際に起こったことを反映する。この2つの間にはギャップがあり、毎月拡大している。

ギャップを生む3つの要因：

*モデル廃止ルーレット*。プロバイダーがモデルを廃止しても、API呼び出しは失敗しない。後継モデルにサイレントにリダイレクトされる。後継モデルはコストが高かったり、より多くのトークンを生成したり、プロンプトの出力が長くなるように動作が異なったりする。総支出だけでなく、呼び出しあたりのコストを追跡していなければ気づかない。

*隠れたトークンカテゴリ*。思考トークン、キャッシュトークン、システムプロンプトトークン――これらは2年前には存在しなかった。今ではそれぞれに独自のレートがある。Anthropicは思考トークンに全額の出力レートを請求する。Googleはキャッシュトークンに75%割引を提供するが、長いコンテキストには2倍の料金を請求する。見出し価格は5～6の数字の中の1つに過ぎない。

*静かな機能変更*。OpenAIの構造化出力モード、Anthropicの拡張思考、Googleのコード実行――これらの機能はレスポンスに含まれるトークン数を変える。プロバイダーが新しいモデルバージョンでデフォルトで機能を有効にすると、何もしなくてもトークン数が変わる。

実際に高くなったのは誰か

2026年1月にコードを凍結し、6月の請求書を確認した場合、次のような結果が考えられる：

複雑な推論にClaudeを使用している場合（思考トークンオーバーヘッド）、長いドキュメントをGeminiに送信している場合（コンテキスト追加料金）、廃止されたモデルに依存していてリダイレクトされた場合、より多く支払っている。
単純なタスクにGemini 2.5 Flashに切り替えた場合（$0.15/Mで真に安い）、またはDeepSeek V3を使用している場合（ローンチ以来価格変更なし）、より少なく支払っている。

呼び出しあたりのコストを追跡していなければ、どちらかわからない。そしてほとんどのチームがそうだ。a16zの2026年の調査によると、LLM APIを使用する企業の71%が個々の呼び出しレベルでの支出を追跡していない。彼らは月次の請求書の一行項目を見て、妥当に見えることを期待するだけだ。

問題はプロバイダーがこそこそしていることではない。彼らはすべての価格変更を公開している。問題は誰も注目していないことだ――そして気づいた時には、3ヶ月分の予算超過がすでに発生している。

もし今月のAI請求書に驚いたとしても、あなただけではない。Tokonomicsはモデル、機能、コストごとにすべてのAPI呼び出しを追跡し、請求書が届く前にアラートを送る。

価格データは2026年6月28日時点のもの。最新の料金は各プロバイダーの価格ページを確認のこと。