AI 面临测量问题 – 这是每个人的问题
AI 工具在科技公司迅速普及,但测量其实际价值却成难题。文章指出,许多公司盲目投入大量资金于 AI,却无法将支出与产出挂钩,导致浪费和盲目削减。作者通过自身经验提出一种基于归因的测量方法,以连接 AI 支出与工作成果。
人工智能工具在科技公司中迅速普及,但如何衡量其实际价值已成为一个普遍难题。Uber 首席运营官最近公开表示,无法将 Claude Code 的使用量和 token 支出与有用的功能发布联系起来。该公司每位工程师每月花费 500 至 2000 美元,部分原因是内部排行榜推动 token 使用量,甚至导致 2026 年 AI 预算在四个月内被耗尽。Salesforce 设定了最低每日支出目标,并建立了跟踪员工支出的仪表板。Meta 的内部“Claudeonomics”排行榜已被取消,亚马逊类似的排行榜也因游戏化问题被撤销。Jensen Huang 曾表示,如果一位年薪 50 万美元的工程师每年不使用 25 万美元的 token,他会“深感担忧”。一家大型企业据称在一个月内花费了 5 亿美元的 token。EntelligenceAI 分析了超过 2400 个工程组织的 100 多万个拉取请求,发现只有 18% 的 AI 编码支出对应到实际交付给用户的产品,其余则消耗在返工、审查和被动工作中。
问题不仅在于员工在游戏化指标,更在于测量真空。Uber 等公司已开始限制访问、控制支出和撤回工具,但这种调整同样缺乏测量。公司盲目支出后又盲目削减,无法将支出与价值联系起来。当执行变得廉价,优先级问题便暴露无遗。2026 年,执行不再是瓶颈,稀缺性不再自动决定优先级。便宜尝试意味着更多尝试,但更高的误报率需要测量才能判断净收益。Anthropic 内部报告也承认:“新想法、新工具和模拟的数量激增,远超我们追求的能力”,人类代码审查成为新的瓶颈。质量证据参差不齐:佐治亚理工学院发现 AI 生成的 CVE 数量在 2025 年第四季度至 2026 年第一季度增加了两倍;Waydev 发现更多代码被接受但伴随更多返工;而 Jellyfish 未发现 AI 采用与错误或回滚率之间的统计显著关系;METR 的随机对照试验显示,经验丰富的开发者使用 AI 后速度反而慢了 19%。这些矛盾源于测量不清晰。
测量任务而非 token 只是把问题提升了一层——你知道有多少 PR 被合并,但不知道这些 PR 是否重要。没有测量,每个采用决策都基于同行行为而非实际回报,这是 FOMO 驱动的。公司内部表现为 token 最大化,董事会向管理层施压展示 AI 采用,管理层转化为支出目标,员工优化唯一可见的指标。Goodhart 定律与欲望模仿相结合,导致这种连锁反应。对于 AI 实验室,token 收入可能因表演性需求而虚增,但测量鸿沟会破坏其规划。如果企业使用中 15-20% 是表演性的并随后消失,实验室收入将无法预测地下降。2026 年预计资本支出为 7250 亿美元,同比增长 77%,其中 75% 与 AI 相关。表演性 token 并不直接推高资本支出,但早期采用曲线的失真会使增长轨迹显得更陡峭,导致容量规划外推错误。
我们如今可以测量什么?工具如 Claude Code 和 Codex 已暴露 token 和支出遥测数据;PR 数量和代码行数可作为代理指标,但存在缺陷。定性收益很难量化,例如代理审查可将工程标准编码为 CLAUDE.md 文件,将审查从文化执行转变为结构执行。Anthropic 最近报告显示,与 2025 年前相比,代码输出提高了 8 倍,但他们承认这“几乎肯定夸大了真实的效率提升”。当指标范围明确时,他们能画出从能力到影响的线:800 项修复将一类 API 错误减少了 1000 倍,训练代码优化在特定基准上加速了 3 到 52 倍。Jellyfish 的 AI Impact 产品将 Claude Code 遥测与 PR 吞吐量、周期时间等代理指标关联,但承认这是相关性而非因果性。大多数公司已拥有实验平台和业务成果跟踪系统,缺失的是连接 token 支出与工作单位的归因键。
归因不是活动跟踪——它连接支出到工作单位,进而与成果关联。作者在尝试管理多个 Claude Code 会话时,构建了一个外部协调框架,将所有工作通过 Linear 路由,使每个提示、计划和审查都成为与任务关联的持久记录。这无意中提供了结构化和确定性的归因,从会话到具体工作。与 Jellyfish 的分析层测量不同,作者的测量发生在编排层,即 token 支出产生的源头。确定性归因有助于闭合测量鸿沟,因为实验需要清晰的单位到处理链接。AI 本身降低了构建归因的成本:代理会话是可记录的单位,工具默认发出丰富的遥测数据。单纯归因不够,还需要可测量分类法:将工作分为可实验性工作(如功能开发)、可序列化工作等,以衡量其影响。对于可实验性工作,通过要求创建实验时关联任务编号,即可连接 token 支出与实验结果。
综上所述,AI 的测量问题并非无法解决。通过构建归因框架和分类法,组织可以将 AI 支出与实际价值联系起来,避免盲目投资和削减。作者的工具经验表明,在编排层进行确定性归因是可行且有效的第一步。