AI 面臨測量問題 – 這是每個人的問題
AI 工具在科技公司迅速普及,但測量其實際價值卻成難題。文章指出,許多公司盲目投入大量資金於 AI,卻無法將支出與產出掛鈎,導致浪費和盲目削減。作者通過自身經驗提出一種基於歸因的測量方法,以連接 AI 支出與工作成果。
人工智能工具在科技公司中迅速普及,但如何衡量其實際價值已成為一個普遍難題。Uber 首席運營官最近公開表示,無法將 Claude Code 的使用量和 token 支出與有用的功能發佈聯繫起來。該公司每位工程師每月花費 500 至 2000 美元,部分原因是內部排行榜推動 token 使用量,甚至導致 2026 年 AI 預算在四個月內被耗盡。Salesforce 設定了最低每日支出目標,並建立了跟蹤員工支出的儀表板。Meta 的內部“Claudeonomics”排行榜已被取消,亞馬遜類似的排行榜也因遊戲化問題被撤銷。Jensen Huang 曾表示,如果一位年薪 50 萬美元的工程師每年不使用 25 萬美元的 token,他會“深感擔憂”。一家大型企業據稱在一個月內花費了 5 億美元的 token。EntelligenceAI 分析了超過 2400 個工程組織的 100 多萬個拉取請求,發現只有 18% 的 AI 編碼支出對應到實際交付給用户的產品,其餘則消耗在返工、審查和被動工作中。
問題不僅在於員工在遊戲化指標,更在於測量真空。Uber 等公司已開始限制訪問、控制支出和撤回工具,但這種調整同樣缺乏測量。公司盲目支出後又盲目削減,無法將支出與價值聯繫起來。當執行變得廉價,優先級問題便暴露無遺。2026 年,執行不再是瓶頸,稀缺性不再自動決定優先級。便宜嘗試意味着更多嘗試,但更高的誤報率需要測量才能判斷淨收益。Anthropic 內部報告也承認:“新想法、新工具和模擬的數量激增,遠超我們追求的能力”,人類代碼審查成為新的瓶頸。質量證據參差不齊:佐治亞理工學院發現 AI 生成的 CVE 數量在 2025 年第四季度至 2026 年第一季度增加了兩倍;Waydev 發現更多代碼被接受但伴隨更多返工;而 Jellyfish 未發現 AI 採用與錯誤或回滾率之間的統計顯著關係;METR 的隨機對照試驗顯示,經驗豐富的開發者使用 AI 後速度反而慢了 19%。這些矛盾源於測量不清晰。
測量任務而非 token 只是把問題提升了一層——你知道有多少 PR 被合併,但不知道這些 PR 是否重要。沒有測量,每個採用決策都基於同行行為而非實際回報,這是 FOMO 驅動的。公司內部表現為 token 最大化,董事會向管理層施壓展示 AI 採用,管理層轉化為支出目標,員工優化唯一可見的指標。Goodhart 定律與慾望模仿相結合,導致這種連鎖反應。對於 AI 實驗室,token 收入可能因表演性需求而虛增,但測量鴻溝會破壞其規劃。如果企業使用中 15-20% 是表演性的並隨後消失,實驗室收入將無法預測地下降。2026 年預計資本支出為 7250 億美元,同比增長 77%,其中 75% 與 AI 相關。表演性 token 並不直接推高資本支出,但早期採用曲線的失真會使增長軌跡顯得更陡峭,導致容量規劃外推錯誤。
我們如今可以測量什麼?工具如 Claude Code 和 Codex 已暴露 token 和支出遙測數據;PR 數量和代碼行數可作為代理指標,但存在缺陷。定性收益很難量化,例如代理審查可將工程標準編碼為 CLAUDE.md 文件,將審查從文化執行轉變為結構執行。Anthropic 最近報告顯示,與 2025 年前相比,代碼輸出提高了 8 倍,但他們承認這“幾乎肯定誇大了真實的效率提升”。當指標範圍明確時,他們能畫出從能力到影響的線:800 項修復將一類 API 錯誤減少了 1000 倍,訓練代碼優化在特定基準上加速了 3 到 52 倍。Jellyfish 的 AI Impact 產品將 Claude Code 遙測與 PR 吞吐量、週期時間等代理指標關聯,但承認這是相關性而非因果性。大多數公司已擁有實驗平台和業務成果跟蹤系統,缺失的是連接 token 支出與工作單位的歸因鍵。
歸因不是活動跟蹤——它連接支出到工作單位,進而與成果關聯。作者在嘗試管理多個 Claude Code 會話時,構建了一個外部協調框架,將所有工作通過 Linear 路由,使每個提示、計劃和審查都成為與任務關聯的持久記錄。這無意中提供了結構化和確定性的歸因,從會話到具體工作。與 Jellyfish 的分析層測量不同,作者的測量發生在編排層,即 token 支出產生的源頭。確定性歸因有助於閉合測量鴻溝,因為實驗需要清晰的單位到處理鏈接。AI 本身降低了構建歸因的成本:代理會話是可記錄的單位,工具默認發出豐富的遙測數據。單純歸因不夠,還需要可測量分類法:將工作分為可實驗性工作(如功能開發)、可序列化工作等,以衡量其影響。對於可實驗性工作,通過要求創建實驗時關聯任務編號,即可連接 token 支出與實驗結果。
綜上所述,AI 的測量問題並非無法解決。通過構建歸因框架和分類法,組織可以將 AI 支出與實際價值聯繫起來,避免盲目投資和削減。作者的工具經驗表明,在編排層進行確定性歸因是可行且有效的第一步。