2026-06-08 15:46 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AI 面臨測量問題 – 這是每個人的問題

AI 工具在科技公司迅速普及，但測量其實際價值卻成難題。文章指出，許多公司盲目投入大量資金於 AI，卻無法將支出與產出掛鈎，導致浪費和盲目削減。作者通過自身經驗提出一種基於歸因的測量方法，以連接 AI 支出與工作成果。

來源Hacker News AI作者: gallardo147

人工智能工具在科技公司中迅速普及，但如何衡量其實際價值已成為一個普遍難題。Uber 首席運營官最近公開表示，無法將 Claude Code 的使用量和 token 支出與有用的功能發佈聯繫起來。該公司每位工程師每月花費 500 至 2000 美元，部分原因是內部排行榜推動 token 使用量，甚至導致 2026 年 AI 預算在四個月內被耗盡。Salesforce 設定了最低每日支出目標，並建立了跟蹤員工支出的儀表板。Meta 的內部“Claudeonomics”排行榜已被取消，亞馬遜類似的排行榜也因遊戲化問題被撤銷。Jensen Huang 曾表示，如果一位年薪 50 萬美元的工程師每年不使用 25 萬美元的 token，他會“深感擔憂”。一家大型企業據稱在一個月內花費了 5 億美元的 token。EntelligenceAI 分析了超過 2400 個工程組織的 100 多萬個拉取請求，發現只有 18% 的 AI 編碼支出對應到實際交付給用户的產品，其餘則消耗在返工、審查和被動工作中。

問題不僅在於員工在遊戲化指標，更在於測量真空。Uber 等公司已開始限制訪問、控制支出和撤回工具，但這種調整同樣缺乏測量。公司盲目支出後又盲目削減，無法將支出與價值聯繫起來。當執行變得廉價，優先級問題便暴露無遺。2026 年，執行不再是瓶頸，稀缺性不再自動決定優先級。便宜嘗試意味着更多嘗試，但更高的誤報率需要測量才能判斷淨收益。Anthropic 內部報告也承認：“新想法、新工具和模擬的數量激增，遠超我們追求的能力”，人類代碼審查成為新的瓶頸。質量證據參差不齊：佐治亞理工學院發現 AI 生成的 CVE 數量在 2025 年第四季度至 2026 年第一季度增加了兩倍；Waydev 發現更多代碼被接受但伴隨更多返工；而 Jellyfish 未發現 AI 採用與錯誤或回滾率之間的統計顯著關係；METR 的隨機對照試驗顯示，經驗豐富的開發者使用 AI 後速度反而慢了 19%。這些矛盾源於測量不清晰。

測量任務而非 token 只是把問題提升了一層——你知道有多少 PR 被合併，但不知道這些 PR 是否重要。沒有測量，每個採用決策都基於同行行為而非實際回報，這是 FOMO 驅動的。公司內部表現為 token 最大化，董事會向管理層施壓展示 AI 採用，管理層轉化為支出目標，員工優化唯一可見的指標。Goodhart 定律與慾望模仿相結合，導致這種連鎖反應。對於 AI 實驗室，token 收入可能因表演性需求而虛增，但測量鴻溝會破壞其規劃。如果企業使用中 15-20% 是表演性的並隨後消失，實驗室收入將無法預測地下降。2026 年預計資本支出為 7250 億美元，同比增長 77%，其中 75% 與 AI 相關。表演性 token 並不直接推高資本支出，但早期採用曲線的失真會使增長軌跡顯得更陡峭，導致容量規劃外推錯誤。

我們如今可以測量什麼？工具如 Claude Code 和 Codex 已暴露 token 和支出遙測數據；PR 數量和代碼行數可作為代理指標，但存在缺陷。定性收益很難量化，例如代理審查可將工程標準編碼為 CLAUDE.md 文件，將審查從文化執行轉變為結構執行。Anthropic 最近報告顯示，與 2025 年前相比，代碼輸出提高了 8 倍，但他們承認這“幾乎肯定誇大了真實的效率提升”。當指標範圍明確時，他們能畫出從能力到影響的線：800 項修復將一類 API 錯誤減少了 1000 倍，訓練代碼優化在特定基準上加速了 3 到 52 倍。Jellyfish 的 AI Impact 產品將 Claude Code 遙測與 PR 吞吐量、週期時間等代理指標關聯，但承認這是相關性而非因果性。大多數公司已擁有實驗平台和業務成果跟蹤系統，缺失的是連接 token 支出與工作單位的歸因鍵。

歸因不是活動跟蹤——它連接支出到工作單位，進而與成果關聯。作者在嘗試管理多個 Claude Code 會話時，構建了一個外部協調框架，將所有工作通過 Linear 路由，使每個提示、計劃和審查都成為與任務關聯的持久記錄。這無意中提供了結構化和確定性的歸因，從會話到具體工作。與 Jellyfish 的分析層測量不同，作者的測量發生在編排層，即 token 支出產生的源頭。確定性歸因有助於閉合測量鴻溝，因為實驗需要清晰的單位到處理鏈接。AI 本身降低了構建歸因的成本：代理會話是可記錄的單位，工具默認發出豐富的遙測數據。單純歸因不夠，還需要可測量分類法：將工作分為可實驗性工作（如功能開發）、可序列化工作等，以衡量其影響。對於可實驗性工作，通過要求創建實驗時關聯任務編號，即可連接 token 支出與實驗結果。

綜上所述，AI 的測量問題並非無法解決。通過構建歸因框架和分類法，組織可以將 AI 支出與實際價值聯繫起來，避免盲目投資和削減。作者的工具經驗表明，在編排層進行確定性歸因是可行且有效的第一步。