為什麼自主AI招聘決策無法辯護(我是做招聘AI的)
本文作者作為招聘AI從業者,指出自主AI招聘決策存在根本缺陷。AI模型依賴的“優秀員工”標籤測量滯後、混雜因素多且存在倖存者偏差,導致模型僅學習複製過去面試官的偏見,而非真正預測績效。自動化放大偏見並剝奪了問責對象。解決方案不是更好的模型,而是結構化人類決策:固定標準、收集相同證據、輔助面試官而非取代他們。
我以構建招聘AI為生,但我想要反對整個行業正競相追逐的目標:讓軟件自主決定你不值得被人類考慮。如果你最近找過工作,你可能已經遇到過它。你投遞簡歷,系統解析並評分,幾毫秒內拒絕你。沒有任何人讀過你的簡歷,沒有解釋,沒有申訴渠道。機器充滿自信,而它就是對話的終點。
對這種做法的常見辯護是人類更糟糕。誠然,人類面試官存在偏見、不一致且緩慢。第一印象在五分鐘內形成,然後悄悄污染後續所有環節:問題變難或變易,相同答案被解讀為自信或迴避,面試者自認“對候選人有感覺”。然而,人類檢測説謊的準確率僅約54%,與拋硬幣無異,專業人士也不比普通人強。相比之下,對所有申請人應用相同函數的模型聽起來像是升級。一致性優於反覆無常。
但真正的比較並非“有偏見的人類的直覺”與“一致的模型”。問題在於標籤本身而非數學。要預測誰會在工作中成功,模型必須學習成功或不成功者的例子。而這個標籤在招聘中是有缺陷的。“優秀員工”這種測量是滯後的,受團隊、經理、市場和運氣干擾,最糟的是存在倖存者偏差:你只能觀察到已僱用人員的表現,無法知道被拒絕的數萬人會如何。訓練信號幾乎完全基於過去招聘者的決定,因此模型學習的是預測“誰會被過去的人類僱用並留下”,包括他們的偏見。
這不是用更多數據就能解決的調參問題。經過一個世紀的研究,結構化面試(相關性約0.51)是預測工作績效的最佳驗證方法,但這遠不足以支持一種無聲的、不可申訴的拒絕。銷售自主 AI 決策的人聲稱的科學依據並不存在。如果標籤包含偏見,自動化決策並不會消除它,而是洗白並規模化它。一個有偏見的人類每年拒絕幾百人,原則上可被質詢;一個有偏見的模型通過 API 持續拒絕幾十萬人,而“一致性”恰恰讓它看起來公平。
監管機構已開始關注。美國僱傭選拔法要求招聘工具在使用前必須經過驗證並與工作相關。當一家供應商構建基於面部表情打分的人臉識別 AI 時,遭到聯邦投訴並悄然放棄面部分析。趨勢明確:自動化僱傭決策正被視為高風險。即使模型平均更公平,“平均更公平”也不等於“對這個人來説是正當的”。具體的人被拒絕,他們有權知道誰做出了決定以及為什麼,並能夠申訴。移除這一點就製造了一個沒有地址可寄的冤情。
那麼替代方案是什麼?如果人類的直覺如此不可靠,為什麼還要把決定權交還給人類?因為修復糟糕的人類流程不是“移除人類”,而是“結構化人類”。研究表明,在面試前定義固定標準、對每個人都收集相同證據、根據實際表現而非感受判斷——這樣性別差異幾乎消失,而無結構化面試則存在顯著差異。軟件的有用角色不是做決定,而是幫助人類做出好決定:呈現證據、保持標準穩定、標記薄弱回答以便深入追問。機器處理一致性和回憶,人類處理判斷和問責。保持人類在循環中是必要的,但不是充分的。但底線至關重要:自主招聘 AI 的問題從來不是它是人工的,而是它毫無根據地自信,且對被判斷者不負責任。我們花了十年加速機器,更困難且更誠實的事業是讓它在每次決定一個人不值得被考慮時,都能向人類回答。