未來工作辯論存在證據問題
一篇2023年的研究估計,80%的美國工人有部分任務暴露於大語言模型,該數字被國際貨幣基金組織、歐洲議會等廣泛引用。然而,這些評分基於早期模型和美國職業分類,存在諸多限制,但政策制定者卻將其用於決策。更動態、具代表性的證據工具雖已存在,卻未能及時影響政策討論。
關於人工智能對就業影響的討論中,“暴露度”是一個核心概念。2023年,Eloundou等人發表的論文“GPTs are GPTs”提出,80%的美國工人至少有10%的職業任務可能受到大語言模型的影響,19%的工人有50%以上的任務面臨風險。這一數字迅速傳播,被國際貨幣基金組織、經濟合作與發展組織引用,甚至出現在美國參議院的政策提案中。然而,這些評分最初旨在回答技術可行性問題,而非預測實際影響。
評分基於2023年初的GPT-4模型能力,而此後AI能力已顯著提升。同時,評分使用美國勞工部的職業分類系統,無法直接適用於其他國家的勞動力市場。此外,工作被分解為可評分的獨立任務,忽略了工作中涉及的判斷、人際關係和情境因素——這些往往是工作最核心的部分。原作者承認了這些侷限,但評分在跨越邊界後,侷限性被放大。
政策制定者面臨壓力,需要知道哪些工人需要支持、哪些行業面臨風險。靜態暴露評分成為主要依據,但評分基於過時模型、美國分類和任務分解,用於指導2026年及以後的決策,涉及非美國勞動力市場和工作,其侷限性並非簡單累積,而是互為疊加。值得注意的是,數據集中沒有數據工人的獨立類別——這些工人實際為AI系統提供勞動力,卻被政策討論所忽視。
研究界並未停滯。動態指數評估當前AI能力,並聯系真實勞動力市場數據,一項研究發現暴露度每增加10分,就業率下降5.6至8.5個百分點。集成方法結合多種暴露框架,提供更可靠估計。任務框架擴展研究任務在職業中的組合方式。以工人為中心的衡量加入工人意願和適應能力。採用和使用數據揭示AI實際應用情況。
未來工作辯論需要回答三個問題:AI能力是否顯著提升、這對經濟意味着什麼、最優政策響應是什麼。政策制定者應將暴露評分視為多種信號之一,加強工人保護、投資再培訓基礎設施。研究人員應構建政策所需證據基礎,更新測量工具,超越美國勞動力市場,將工人視為認識夥伴。80%的暴露數字描述的是特定時刻特定假設下的技術可行性,不是預測,更不是指令。未來工作將由研究者、政策制定者和工人共同塑造,證據基礎應能勝任此任務。