「Tokenmaxxingは現実で、高価で、広がっている」:AI予算爆発を防ぐ新ツール登場
Tokenmaxxing(AIトークンの無制限な使用)により、企業の予算が制御不能になっています。UberのCTOはAnthropicのClaude Codeへの支出超過を認めました。Lanaiは新ツールToken Tunerを発表。トークン消費をワークフローと成果にマッピングし、効率スコアとモデル推奨を提供することで、TokenmaxxingからOutcomemaxxingへの移行を促進します。
記事インテリジェンス
要点
- TokenmaxxingによりUberなどでAI予算が超過している。
- LanaiのToken Tunerはトークン使用をワークフローや成果に紐付け、効率スコアとモデル推奨を提供。
- 業界はトークン量よりビジネス成果を重視する「Outcomemaxxing」へシフトしている。
重要な理由
このニュースが重要なのは、TokenmaxxingによりUberなどでAI予算が超過しているためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Tokenmaxxing(トークンの無制限使用)に対する新たな武器が登場した。
Tokenmaxxingとは、企業がAIトークンの使用量を生産性と同一視する現象である。しかし、トークン使用量は虚栄の指標になりやすく、大量のトークン消費を直接的な生産性の尺度とする企業は、トークン使用を望ましい成果に結びつけられないことが多い。
一過性の流行として、Tokenmaxxingは一時的に大流行したが、焦点がAIそのものではなく成果に移るにつれ、冷静な意見が優勢になりつつある。Uberの最近のケースを見てみよう:
UberのCTO Neppalli Nagaは先月、The Informationに対し「必要だと思っていた予算がすでに吹き飛んでしまったため、振り出しに戻っている」と語った。この予算はUberによるAnthropicのClaude Codeの利用に充てられていた。
その数週間後、UberのCOO Andrew MacdonaldはBusiness Insiderのインタビューで、NagaのClaude予算超過発言がオペレーションチームに「頭が爆発するような瞬間」をもたらしたと応じた。
「皆『ああ、頭が爆発する』という感じでした」とMacdonaldは語る。「トークン消費とそれに関連するコスト対人員数の話を始め、エンジニアリング組織としてトレードオフを行う必要があります。
「ユーザーにどれだけ有用な機能を届けているかに直接結びつけられなければ、そのトレードオフは正当化しにくいのです。」
Lanaiの共同創業者兼CEO Lexi Reeseは、この問題は至る所で発生していると強調する。Uberは最新の有名な例に過ぎない。
「Tokenmaxxingは現実で、高価で、少数のエンジニアや企業を超えて広がっています」とReeseはThe New Stackに語る。
Tokenmaxxingはコードの肥大化、エージェントの制御不能、さらにはソフトウェアアプリケーションの脆弱化や危険化を引き起こす可能性があり、コストがかさみ、システム全体の状態の可視性を低下させる。
LanaiはAIアカウンタビリティ企業であり、企業がAI支出の発生箇所、AIが適用されているワークフロー、そのコストを理解するのを支援する。
同社は最近、低コストモデルで不要なトークンコストを削減できる場所を特定するToken Tunerを発表した。これは、開発者やリーダーがエンジニアやエンドユーザーによるトークン使用を制御するための最新ツールである。インターネット上にはトークン使用量削減のための「トップ10リスト」が溢れている。Kong、Braintrust、LiteLLM、Dynatraceなどの企業や組織も、トークン使用を予算化するツールを提供している。
ReeseとチームはToken Tunerを、トークン支出をワークフロー、モデル選択、効率性、創出価値にマッピングすることで、企業に欠けているコンテキストギャップを埋めるサービスとして位置づけている。このソフトウェアは各AIインタラクションを測定可能な成果に結び付け、各ユーザーがタスクに対してトークン使用とモデル選択をどれだけ適切に行ったかに基づいて生産性スコアを生成する。
例えば、メール返信にOpus 4.7を使用する従業員は、より小さなモデルを使用した場合よりも低い効率スコアを得る可能性が高い。
TokenmaxxingからOutcomemaxxingへ
ReeseはTokenmaxxingではなく、企業がOutcomemaxxingに注力し、どのワークフローが実際に生産性を向上させているかを分析することを望んでいる。
現在ベータ版であるLanai Token Tunerのあるユーザーは、組織内の全AI活用時間の4.2%を委任しながら、使用したトークンはわずか0.7%だった。効率スコアは6.0で、タスクに適切なモデルをマッチングしていた一方、他のユーザーは10倍のトークンを消費しながら効率は半分だった。
LanaiのチーフプロダクトオフィサーMohit MehtaはThe New Stackに対し、Token Tunerは全天候型車両のようなもので、単一ワークフローが複数のモデルにまたがる場合でも生産性スコアを計算できると語る。
「生産性は、Lanaiの独自モデルによるプロンプトとツールアクティビティの観察を通じて、AIに委任された作業の複雑さによって推定されます」とMehtaは言う。「モデルはプロンプトとツール呼び出しのレベルで動作し、モデルやアプリケーションから独立しています。」
ビジネスタスクにおけるAI使用の追跡
テクノロジー導入によるビジネス成果を重視するようになるにつれ(政治家が最近「測定可能な成果」という言葉を使い始めたほど)、Token Tunerが特定のビジネス成果にトークンを帰属させるためにAPI層でどのような計装が必要か問う必要がある。
「Lanaiは、特定のセッションにおけるプロンプトインタラクションと関連ツールアクティビティを集約し、独自モデルを実行してタスクタイプ、生産性ゲイン、複雑性を計算します」とMehtaは説明する。「これにより、顧客はコンテキストのないベンダーインボイスから、インタラクションレベルで意図、価値、コストを結びつけることができます。この機能にカスタム計装は不要です。」
「合成評価ではなく、観測された成果データを利用します。私たちの推奨は、組織内の実際のユーザーが異なるモデルで同等の結果を達成する方法に基づいています。」
Token Tunerが低コストモデルを推奨する際、推奨を出す前に出力品質の等価性を評価するベンチマークはあるのか?Mehtaは次のように明確にしている:「合成評価ではなく、観測された成果データを利用します。私たちの推奨は、組織内の実際のユーザーが異なるモデルで同等の結果を達成する方法に基づいています。
「例えば、『これはあなたに合うでしょう』といった推奨ではなく、『あなたの会社のチームがHaikuでこのワークフローを同等の成功を収めて実行しました』という経験的証拠を提供します。これは合成ベンチマークではなく、実世界での大規模な選好を表しています。」
主な機能には、ワークフローレベルの価値可視化(どのチーム、ワークフロー、ユースケースがAI支出を牽引し、その使用が測定可能なビジネス価値に結びついているかを示すサービス)、生産性と効率性の測定(トークン支出とユーザー、チーム、ワークフローが得たレバレッジを比較し、AIが1ドルあたり最大の価値を生み出す場所を示す)、支出最適化推奨(暴走するワークフロー、ミスマッチなタスク、低コストモデルで処理できる作業へのプレミアムモデル使用を特定)が含まれる。
AIの次のキラーサービス:効率性?
かつて地球が冷え、私たちはただAIを欲した。普通の予測型AIで十分だった。その後恐竜が絶滅し、ドメイン特化型のRAGベースのインテリジェンスを欲し、さらに人間が監視するエージェント型AIサービスが登場してロボットの台頭を防いだ。今、私たちは最も応用的な意味で目的に適ったAIを望んでいる。不要な場所では使わず、ターボチャージが本当に正当化される場合にのみ高性能サービスを使うのだ。
実際、AIの次のキラーアプリはビジネス効率だけでは決まらないが、効率はより重要な要素になるだろう。