300万ドルのAI請求額を190万ドルに
Flowstateは、AIリクエストを最適なモデルにルーティングし、プロジェクトごとの支出を追跡することで、AIコストを最大42%削減するインテリジェントプロキシです。この記事では、デフォルトで高価なフラッグシップモデルを使用することと、コストの帰属が欠如していることという2つの主要なリークについて説明しています。
現在、あなたのチームの誰かが、スライドデッキを編集するために最も高価なAIモデルを使用しているかもしれません。彼らがそれを選んだわけではなく、単にデフォルトだからです。その目に見えない選択が1日に何千回も繰り返されると、AIの請求額はすぐに給与のように膨れ上がります。
その数字を膨らませているのは2つのことです。デフォルトのモデルがタスクに合っていない——安価なモデルで十分な作業にフラッグシップ価格を支払っている。そして、タスクは請求書に表示されておらず、どのプロジェクトやモデルに使われたかを区別できない一括の金額になっている。
Flowstateはリクエストパスに位置し、両方のリークを塞ぎます。各プロンプトをタスクに必要なモデルにルーティングし、すべてのドルをそれが支払った作業に紐付けます。誰も生産量を減らすことはありません。かつて300万ドルかかった同じ出力が190万ドルになり、初めてそのお金が実際に何を買ったのかを見ることができます。
Opus価格でSonnetの仕事を支払っている
ほとんどの人はモデルを選びません。ボックスが読み込まれたときに選択されているものをそのまま使い、デフォルトはフラッグシップ、すなわち最も高価なモデルです。それは本当に難しい問題に対しては正しい選択ですが、一行のメールでは完全な無駄です。マーケターにデフォルトのチャットウィンドウが必要以上に5倍のコストがかかっていることを期待するのは無理です。価格は画面に表示されず、ベンダーにはそれを示すインセンティブがありません。
だから、彼らにそれを学ばせる必要はありません。タスクがモデルを選ぶべきであり、タイピングしている人ではありません。その決定はリクエスト層で行われるべきで、誰かの頭の中にあるべきではありません。要約やフォーマット変更はHaikuへ、日常的なコーディングやドラフトはSonnetへ、本当に難しい推論はOpusへ。単一のジョブを分割し、Opusで計画し、Sonnetで実行することもでき、高価な思考を必要なステップだけに留めます。その人は一日中何をしていても、同じプロンプトを入力し同じ答えを得ます。請求書が小さくなるだけです。そしてこれはClaude Codeだけではありません。同じデフォルトが、あなたの営業、オペレーション、マーケティング担当者が開くすべてのチャットの前にあります。
どれくらい節約できるか?ピアレビューされた研究、例えばDingらのHybrid LLMは、測定可能な品質低下なしに高価なモデルへの呼び出しを最大40%削減できることを示しています。これはモデルミックス上の単なる算術であり、あなたが正当に実行するあらゆるデプロイメントで機能します。
これは使用量とともに成長するレバーです。チームがAIに頼れば頼るほど、間違ったモデルのデフォルトがコスト増につながり、ルーティングがより多くを還元します。以下の計算機では、それは太線と緑色の線の間のギャップです。
見えない請求書
初日。エンジニアが会社に入社し、Enterprise Claudeアカウントを渡され、最初の5つのプロンプトで145ドルを消費します。定額制プランならその使用量は1週間持続したでしょうが、従量制のEnterpriseプランでは昼食前に使い果たします。人事部門はすでに彼が答えられない質問をしており、彼は月5000ドルの計算をしています:「自分の給料よりも高い」。使用量ページには制限が表示されるべきところに、「無制限」という一言だけがあります。これはr/ClaudeCodeからの実際の投稿であり、1枚のスクリーンショットに2番目のリークが写っています。
最初のリークは誰も選ばなかったモデル。もう1つはこれです:誰も監視していないメーター。今年の時点で、Enterpriseはチームがチャット、Claude Code、Coworkで使用するすべてのトークンに、標準APIレートでシート料金に加えて課金しています。従量制はライトチームには安価ですが、スケールすると暴走します。そして、それは1つの区別されない請求書として届くため、財務が警告を出すまで誰も急増に気づきません。見えないものはルーティングできず、比較したことのない2つのデプロイメントを選択することもできません。だから、比較しましょう:
あなたのドアを選び、チームサイズを設定し、使用量をドラッグします。
選択したデプロイメント(太線)、同じデプロイメントにFlowstateルーティングを適用したもの、および比較用の他のドアの年間AI支出。緑色の線とのギャップがルーティングによる節約、最も安い破線とのギャップがそのドアのコストです。
実際に元が取れたプロジェクトはどれか
ルーティングはタスクごとに支払う額を修正します。より難しい質問は、それで何を買ったかです。それを請求書から読み取ることはできません。コストは人々が議論する半分にすぎません。帰属は静かにさらにコストがかかる半分です。
誰かが今月Opusに300ドル使ったとき、問題はどのモデルかではなく、どのプロジェクトかです。それが答えられない場合、すべてのドルは同じ区別されないOpExバケツに入り、使われた瞬間に費用計上されます。財務はAnthropicからの請求書と数字を見ますが、個人や作業に紐付けられず、ただ増えるのを見守るしかできません。コストセンターのない第2の給与です。
文脈のない請求書は単なる請求書、増えた数字です。文脈があれば地図に変わります。新しい請求フローを構築しているチームが月に4万ドルのモデル時間を消費しているのに対し、誰も承認していない実験が6万ドル消費しているのがわかります。出荷コストが回収できる額を超える機能や、静かにロードマップを支える安価な機能がわかります。それはコスト削減ではなく、レバレッジがどこにあるか、どの作業を強化し、どの作業を縮小すべきかを知ることです。帰属された支出は財務が恐れる数字ではなくなり、価値が実際に生み出されている場所を示す最も鋭い測定値になります。
そしてそれは報告だけでなく会計も変えます。新しいソフトウェアの構築に使われるAI支出は、IAS 38やASC 350-40の下での伝統的なソフトウェア開発と同様に、資本化し耐用年数にわたって償却することができます。障壁は会計ルールではなく、帰属の欠如でした。帰属できないものは資本化できず、プロバイダーの請求書は何も帰属しません。Flowstateはすべての呼び出しを個人、プロジェクト、モデル、コストクラスに結び付け、実際の価値を生み出す作業がOpExに隠れるのを防ぎます。
そして、あなたの作業のうち該当するものが多ければ多いほど、効果は大きくなります。開発努力の70%が実際に新製品の構築である場合(多くのチームでそうですが)、帰属はそのAI支出の大部分を今四半期のP&Lから貸借対照表に移し、ソフトウェアが収益を上げる期間にわたって償却します。7桁のAI請求書では、これは些細なことではなく、現在のマージン悪化と後日回収可能な資産の違いです。(特定のプロジェクトが該当するかどうかは、ブログ記事ではなく財務・監査チームの判断です。)
私たちの位置づけ
Flowstateはインテリジェントプロキシです:ZscalerをAIトラフィック向けにしたものと考えてください。アカウントをプールせず、契約を保持しません。お客様は自らのキーと各プロバイダーとの直接契約を維持します。私たちはリクエストパスに位置し、各呼び出しが通過する際に3つのことを行います:タスクに必要なモデルにルーティング、決して外に出てはいけないもの(ソースコード、顧客PIIが間違った場所へ向かっている場合)を検査、そして個人、プロジェクト、コストクラスに対してログを取ります。これがEnterpriseがプレミアムで請求する可視性であり、プレミアムなしで、誰にも契約を渡さずに実現します。
私たちはプロキシであってアカウントプールではないため、お客様がプロバイダーの条件上どこに位置するかは、お客様自身の決定であり、全体像を見た上で、暗闇の中ではなく行えます。各デプロイメントの実際のコストを確認し、ルーティングで支出を削減し、リスクをどれだけ負担するかに基づいてチームごとに使用量を調整できます。上記の2つのリークは、同じマシンが2つの仕事をしているものです:各リクエストを正しいモデルに送り、選択したデプロイメントを管理可能なほど明確にします。
率直な注意点をいくつか。Flowstateはデプロイメントを観察可能で制御可能にしますが、契約を書き換えるものではありません。BAA、データレジデンシー、契約上のno-training条項が必要な場合は、Enterpriseドアが必要であり、そこでの私たちの仕事はルーティングと台帳です:従量制の請求書が暴走するのを防ぐこと。そして全体はヘビーユーザー向けの話です:ライトチームでは、従量制の請求書がこれらの対策が元を取るポイントに達することはなく、計算機で使用量を下げるとすぐにわかります。
長年、トレードオフは二択に見えました:人々が目の前のモデルに手を伸ばすままにして請求書を飲み込むか、すべてをロックダウンして手動でプロンプトを監視するか。これは、請求書を飲み込むか使用制限でチームを停滞させるかの二択であるべきではありません。タスクをルーティングすれば、Opus価格でSonnetの仕事を支払うのをやめられます。支出を帰属させれば、AIは区別されないマージン悪化ではなくなります。必要なのは、制御を与える中間のプロキシだけです。