2026-06-08 15:46 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

AI 面临测量问题 – 这是每个人的问题

AI 工具在科技公司迅速普及，但测量其实际价值却成难题。文章指出，许多公司盲目投入大量资金于 AI，却无法将支出与产出挂钩，导致浪费和盲目削减。作者通过自身经验提出一种基于归因的测量方法，以连接 AI 支出与工作成果。

来源Hacker News AI作者: gallardo147

人工智能工具在科技公司中迅速普及，但如何衡量其实际价值已成为一个普遍难题。Uber 首席运营官最近公开表示，无法将 Claude Code 的使用量和 token 支出与有用的功能发布联系起来。该公司每位工程师每月花费 500 至 2000 美元，部分原因是内部排行榜推动 token 使用量，甚至导致 2026 年 AI 预算在四个月内被耗尽。Salesforce 设定了最低每日支出目标，并建立了跟踪员工支出的仪表板。Meta 的内部“Claudeonomics”排行榜已被取消，亚马逊类似的排行榜也因游戏化问题被撤销。Jensen Huang 曾表示，如果一位年薪 50 万美元的工程师每年不使用 25 万美元的 token，他会“深感担忧”。一家大型企业据称在一个月内花费了 5 亿美元的 token。EntelligenceAI 分析了超过 2400 个工程组织的 100 多万个拉取请求，发现只有 18% 的 AI 编码支出对应到实际交付给用户的产品，其余则消耗在返工、审查和被动工作中。

问题不仅在于员工在游戏化指标，更在于测量真空。Uber 等公司已开始限制访问、控制支出和撤回工具，但这种调整同样缺乏测量。公司盲目支出后又盲目削减，无法将支出与价值联系起来。当执行变得廉价，优先级问题便暴露无遗。2026 年，执行不再是瓶颈，稀缺性不再自动决定优先级。便宜尝试意味着更多尝试，但更高的误报率需要测量才能判断净收益。Anthropic 内部报告也承认：“新想法、新工具和模拟的数量激增，远超我们追求的能力”，人类代码审查成为新的瓶颈。质量证据参差不齐：佐治亚理工学院发现 AI 生成的 CVE 数量在 2025 年第四季度至 2026 年第一季度增加了两倍；Waydev 发现更多代码被接受但伴随更多返工；而 Jellyfish 未发现 AI 采用与错误或回滚率之间的统计显著关系；METR 的随机对照试验显示，经验丰富的开发者使用 AI 后速度反而慢了 19%。这些矛盾源于测量不清晰。

测量任务而非 token 只是把问题提升了一层——你知道有多少 PR 被合并，但不知道这些 PR 是否重要。没有测量，每个采用决策都基于同行行为而非实际回报，这是 FOMO 驱动的。公司内部表现为 token 最大化，董事会向管理层施压展示 AI 采用，管理层转化为支出目标，员工优化唯一可见的指标。Goodhart 定律与欲望模仿相结合，导致这种连锁反应。对于 AI 实验室，token 收入可能因表演性需求而虚增，但测量鸿沟会破坏其规划。如果企业使用中 15-20% 是表演性的并随后消失，实验室收入将无法预测地下降。2026 年预计资本支出为 7250 亿美元，同比增长 77%，其中 75% 与 AI 相关。表演性 token 并不直接推高资本支出，但早期采用曲线的失真会使增长轨迹显得更陡峭，导致容量规划外推错误。

我们如今可以测量什么？工具如 Claude Code 和 Codex 已暴露 token 和支出遥测数据；PR 数量和代码行数可作为代理指标，但存在缺陷。定性收益很难量化，例如代理审查可将工程标准编码为 CLAUDE.md 文件，将审查从文化执行转变为结构执行。Anthropic 最近报告显示，与 2025 年前相比，代码输出提高了 8 倍，但他们承认这“几乎肯定夸大了真实的效率提升”。当指标范围明确时，他们能画出从能力到影响的线：800 项修复将一类 API 错误减少了 1000 倍，训练代码优化在特定基准上加速了 3 到 52 倍。Jellyfish 的 AI Impact 产品将 Claude Code 遥测与 PR 吞吐量、周期时间等代理指标关联，但承认这是相关性而非因果性。大多数公司已拥有实验平台和业务成果跟踪系统，缺失的是连接 token 支出与工作单位的归因键。

归因不是活动跟踪——它连接支出到工作单位，进而与成果关联。作者在尝试管理多个 Claude Code 会话时，构建了一个外部协调框架，将所有工作通过 Linear 路由，使每个提示、计划和审查都成为与任务关联的持久记录。这无意中提供了结构化和确定性的归因，从会话到具体工作。与 Jellyfish 的分析层测量不同，作者的测量发生在编排层，即 token 支出产生的源头。确定性归因有助于闭合测量鸿沟，因为实验需要清晰的单位到处理链接。AI 本身降低了构建归因的成本：代理会话是可记录的单位，工具默认发出丰富的遥测数据。单纯归因不够，还需要可测量分类法：将工作分为可实验性工作（如功能开发）、可序列化工作等，以衡量其影响。对于可实验性工作，通过要求创建实验时关联任务编号，即可连接 token 支出与实验结果。

综上所述，AI 的测量问题并非无法解决。通过构建归因框架和分类法，组织可以将 AI 支出与实际价值联系起来，避免盲目投资和削减。作者的工具经验表明，在编排层进行确定性归因是可行且有效的第一步。