未来工作辩论存在证据问题
一篇2023年的研究估计,80%的美国工人有部分任务暴露于大语言模型,该数字被国际货币基金组织、欧洲议会等广泛引用。然而,这些评分基于早期模型和美国职业分类,存在诸多限制,但政策制定者却将其用于决策。更动态、具代表性的证据工具虽已存在,却未能及时影响政策讨论。
关于人工智能对就业影响的讨论中,“暴露度”是一个核心概念。2023年,Eloundou等人发表的论文“GPTs are GPTs”提出,80%的美国工人至少有10%的职业任务可能受到大语言模型的影响,19%的工人有50%以上的任务面临风险。这一数字迅速传播,被国际货币基金组织、经济合作与发展组织引用,甚至出现在美国参议院的政策提案中。然而,这些评分最初旨在回答技术可行性问题,而非预测实际影响。
评分基于2023年初的GPT-4模型能力,而此后AI能力已显著提升。同时,评分使用美国劳工部的职业分类系统,无法直接适用于其他国家的劳动力市场。此外,工作被分解为可评分的独立任务,忽略了工作中涉及的判断、人际关系和情境因素——这些往往是工作最核心的部分。原作者承认了这些局限,但评分在跨越边界后,局限性被放大。
政策制定者面临压力,需要知道哪些工人需要支持、哪些行业面临风险。静态暴露评分成为主要依据,但评分基于过时模型、美国分类和任务分解,用于指导2026年及以后的决策,涉及非美国劳动力市场和工作,其局限性并非简单累积,而是互为叠加。值得注意的是,数据集中没有数据工人的独立类别——这些工人实际为AI系统提供劳动力,却被政策讨论所忽视。
研究界并未停滞。动态指数评估当前AI能力,并联系真实劳动力市场数据,一项研究发现暴露度每增加10分,就业率下降5.6至8.5个百分点。集成方法结合多种暴露框架,提供更可靠估计。任务框架扩展研究任务在职业中的组合方式。以工人为中心的衡量加入工人意愿和适应能力。采用和使用数据揭示AI实际应用情况。
未来工作辩论需要回答三个问题:AI能力是否显著提升、这对经济意味着什么、最优政策响应是什么。政策制定者应将暴露评分视为多种信号之一,加强工人保护、投资再培训基础设施。研究人员应构建政策所需证据基础,更新测量工具,超越美国劳动力市场,将工人视为认识伙伴。80%的暴露数字描述的是特定时刻特定假设下的技术可行性,不是预测,更不是指令。未来工作将由研究者、政策制定者和工人共同塑造,证据基础应能胜任此任务。