为什么自主AI招聘决策无法辩护(我是做招聘AI的)
本文作者作为招聘AI从业者,指出自主AI招聘决策存在根本缺陷。AI模型依赖的“优秀员工”标签测量滞后、混杂因素多且存在幸存者偏差,导致模型仅学习复制过去面试官的偏见,而非真正预测绩效。自动化放大偏见并剥夺了问责对象。解决方案不是更好的模型,而是结构化人类决策:固定标准、收集相同证据、辅助面试官而非取代他们。
我以构建招聘AI为生,但我想要反对整个行业正竞相追逐的目标:让软件自主决定你不值得被人类考虑。如果你最近找过工作,你可能已经遇到过它。你投递简历,系统解析并评分,几毫秒内拒绝你。没有任何人读过你的简历,没有解释,没有申诉渠道。机器充满自信,而它就是对话的终点。
对这种做法的常见辩护是人类更糟糕。诚然,人类面试官存在偏见、不一致且缓慢。第一印象在五分钟内形成,然后悄悄污染后续所有环节:问题变难或变易,相同答案被解读为自信或回避,面试者自认“对候选人有感觉”。然而,人类检测说谎的准确率仅约54%,与抛硬币无异,专业人士也不比普通人强。相比之下,对所有申请人应用相同函数的模型听起来像是升级。一致性优于反复无常。
但真正的比较并非“有偏见的人类的直觉”与“一致的模型”。问题在于标签本身而非数学。要预测谁会在工作中成功,模型必须学习成功或不成功者的例子。而这个标签在招聘中是有缺陷的。“优秀员工”这种测量是滞后的,受团队、经理、市场和运气干扰,最糟的是存在幸存者偏差:你只能观察到已雇用人员的表现,无法知道被拒绝的数万人会如何。训练信号几乎完全基于过去招聘者的决定,因此模型学习的是预测“谁会被过去的人类雇用并留下”,包括他们的偏见。
这不是用更多数据就能解决的调参问题。经过一个世纪的研究,结构化面试(相关性约0.51)是预测工作绩效的最佳验证方法,但这远不足以支持一种无声的、不可申诉的拒绝。销售自主 AI 决策的人声称的科学依据并不存在。如果标签包含偏见,自动化决策并不会消除它,而是洗白并规模化它。一个有偏见的人类每年拒绝几百人,原则上可被质询;一个有偏见的模型通过 API 持续拒绝几十万人,而“一致性”恰恰让它看起来公平。
监管机构已开始关注。美国雇佣选拔法要求招聘工具在使用前必须经过验证并与工作相关。当一家供应商构建基于面部表情打分的人脸识别 AI 时,遭到联邦投诉并悄然放弃面部分析。趋势明确:自动化雇佣决策正被视为高风险。即使模型平均更公平,“平均更公平”也不等于“对这个人来说是正当的”。具体的人被拒绝,他们有权知道谁做出了决定以及为什么,并能够申诉。移除这一点就制造了一个没有地址可寄的冤情。
那么替代方案是什么?如果人类的直觉如此不可靠,为什么还要把决定权交还给人类?因为修复糟糕的人类流程不是“移除人类”,而是“结构化人类”。研究表明,在面试前定义固定标准、对每个人都收集相同证据、根据实际表现而非感受判断——这样性别差异几乎消失,而无结构化面试则存在显著差异。软件的有用角色不是做决定,而是帮助人类做出好决定:呈现证据、保持标准稳定、标记薄弱回答以便深入追问。机器处理一致性和回忆,人类处理判断和问责。保持人类在循环中是必要的,但不是充分的。但底线至关重要:自主招聘 AI 的问题从来不是它是人工的,而是它毫无根据地自信,且对被判断者不负责任。我们花了十年加速机器,更困难且更诚实的事业是让它在每次决定一个人不值得被考虑时,都能向人类回答。