AIには測定問題がある – それは全員の問題だ
AIツールはテクノロジー企業で急速に普及しているが、その実際の価値を測定することは難しい。この記事は、多くの企業がAIに盲目的に巨額を費やしながら、支出と成果を結びつけることができず、無駄と盲目的な削減を引き起こしていると指摘する。著者は自身の経験に基づき、AI支出と作業成果を結びつける属性ベースの測定方法を提案する。
AIツールはテクノロジー企業で急速に普及していますが、その実際の価値を測定することは依然として困難です。UberのCOOは最近、Claude Codeの使用量とトークン支出を有用な機能リリースに結びつけることができないと公に述べました。同社はエンジニア一人当たり月額500〜2000ドルを費やしており、その一部は内部リーダーボードがトークン使用量を促進し、2026年のAI予算が4ヶ月で枯渇したことによるものです。Salesforceは最低日次支出目標を設定し、従業員の支出を追跡するダッシュボードを構築しました。Metaの内部「Claudeonomics」リーダーボードは廃止され、Amazonの類似リーダーボードもゲーミング問題で撤回されました。Jensen Huangは、年収50万ドルのエンジニアが年間25万ドルのトークンを使用しない場合「深く憂慮する」と述べています。ある大企業は、単月で5億ドルのトークンを費やしたと報告されています。EntelligenceAIは、2400以上のエンジニアリング組織にわたる100万以上のプルリクエストを分析し、AIコーディング支出のわずか18%のみが実際のユーザーに届く製品に結びついていることを発見しました。残りはリワーク、レビュー、受動的な作業に費やされています。
問題は従業員が指標をゲーム化していることだけでなく、測定の空白にあります。Uberなどの企業はアクセスを制限し、支出をコントロールし、ツールを撤回し始めていますが、この調整も測定されていません。企業は盲目的に支出し、今は盲目的に削減しています。支出と価値を結びつける能力が欠如しており、これはあらゆる規模で繰り返されます。実行が安価になると、優先順位の問題が露呈します。2026年、実行はボトルネックではなくなり、希少性は自動的に優先順位を決定しません。安価な試行はより多くの試行を意味しますが、より高い偽陽性率を伴うため、測定なしに純利益を判断できません。Anthropicの内部報告でも「新しいアイデア、イニシアチブ、ツール、シミュレーションが爆発的に増加し、追求する能力をはるかに超えている」と認められており、人間のコードレビューが新たなボトルネックとなっています。品質の証拠はまちまちです:ジョージア工科大学はAI生成のCVEが2025年第4四半期から2026年第1四半期にかけて3倍に増加したと報告;Waydevはより多くのコードが受け入れられたがリワークも増加したと報告;JellyfishはAI採用とバグまたはロールバック率の間に統計的に有意な関係を発見せず;METRのRCTでは経験豊富な開発者がAIを使用すると19%遅くなったが、スピードアップを認識していました。これらの矛盾は測定の不備に起因します。
トークンではなくタスクを測定するのは問題を一段階上げるだけです——マージされたPR数はわかるが、そのPRが重要だったかはわかりません。測定がなければ、すべての採用決定は実証されたリターンではなく、同業者の行動に基づいて行われます。これはFOMO主導です。企業内部ではトークンマクシングとして現れ、取締役会は経営陣にAI採用を示すようプレッシャーをかけ、経営陣は支出目標に変換し、従業員は唯一可視的な指標を最適化します。グッドハートの法則と欲望の模倣がこの連鎖を引き起こします。AIラボにとって、トークン収益はパフォーマンス的需要によって膨らむ可能性がありますが、測定ギャップは計画を損なう可能性があります。もしエンタープライズ使用の15〜20%がパフォーマンス的で後に修正されれば、ラボの収益はモデル化できない形で減少します。2026年の設備投資は7250億ドルと予想され、前年比77%増、その75%がAI関連です。パフォーマンストークンは設備投資に直接影響しませんが、初期採用曲線の歪みは成長軌道を実際の需要よりも急峻に見せ、容量計画を誤らせる可能性があります。
現在何を測定できるでしょうか?Claude CodeやCodexなどのツールは既にトークンと支出のテレメトリを公開しています。PR数やコード行数は代理指標として存在しますが、欠陥があります。定性的な利益は定量化が難しく、例えばエージェントレビューはエンジニアリング基準をCLAUDE.mdファイルにエンコードし、レビューを文化的執行から構造的執行にシフトします。Anthropicの最近の報告では、2025年以前と比較してコード出力が8倍に増加したとされていますが、彼ら自身「本当の生産性向上をほぼ間違いなく過大評価している」と認めています。指標の範囲を明確にすると、能力から影響への線を引くことができます:800の修正がAPIエラーのクラスを1000倍削減、トレーニングコードの最適化が特定のベンチマークで3倍から52倍の高速化、自動レビューがマージ前に本番バグの3分の1を捕捉。JellyfishのAI Impact製品はClaude CodeのテレメトリとPRスループット、サイクルタイムなどの代理指標を相関させていますが、因果関係ではなく相関関係であると認めています。ほとんどの企業はすでに実験プラットフォームやビジネス成果追跡システムを持っており、欠けているのはトークン支出を測定対象の作業単位に結びつける属性キーです。
属性はアクティビティ追跡ではありません——支出を作業単位に結びつけ、それを成果にリンクさせます。著者は複数のClaude Codeセッションを管理する際、すべての作業をLinear経由でルーティングする外部オーケストレーションフレームワークを構築し、各プロンプト、計画、レビューをチケットに関連付けられた永続的な記録としました。これにより、セッションから特定の作業への構造的かつ決定的な属性が偶然提供されました。Jellyfishの分析層測定とは異なり、著者の測定はオーケストレーション層、つまりトークン支出が発生する場所で行われます。決定的な属性は測定ギャップを埋めるのに役立ちます。実験にはクリーンな単位から処理へのリンクが必要だからです。AI自体が属性構築のコストを下げています:エージェントセッションはログ可能な単位であり、ツールはデフォルトで豊富なテレメトリデータを発行します。属性だけでは不十分で、測定可能性の分類法も必要です:作業を実験可能なもの(機能開発など)、順序付け可能なものなどに分類し、その影響を測定します。実験可能な作業については、実験作成時にチケットリンクを要求することで、トークン支出と実験結果を結びつけることができます。
結論として、AIの測定問題は解決不可能ではありません。属性フレームワークと分類法を構築することで、組織はAI支出を実際の価値に結びつけ、盲目的な投資や削減を回避できます。著者のツール経験は、オーケストレーション層での決定的な属性が実現可能かつ効果的な第一歩であることを示しています。