2024-04-08 23:54 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

AI中的性別偏見概述

本文綜述了AI模型中性別偏見的研究，包括詞嵌入、人臉識別、指代消解、大語言模型和圖像生成模型中的偏見，並討論了研究空白、其他類型的偏見以及解決偏見的方法與哲學問題。

來源The Gradient作者: Yennie Jun

人工智能模型往往會反映並放大現實世界中存在的性別偏見。為了妥善解決和緩解這些問題，量化模型中的偏見至關重要。本文簡要介紹了在揭示、評估和測量AI模型中性別偏見方面的一些重要工作，並討論了這些工作的意義及研究空白。

文章首先釐清了“AI”、“性別”和“偏見”等術語。在此上下文中，“AI”指在人類數據上訓練的機器學習系統，包括詞嵌入等統計模型以及ChatGPT等基於Transformer的現代模型。“性別”在AI研究中通常指二元男女（因為計算機科學家更容易測量），偶爾包含“中性”類別。“偏見”則泛指對某一羣體的不平等、不利或不公正對待。有多種分類和量化偏見的方法，但不在本文討論範圍內。

隨後，文章按時間順序回顧了若干有影響力的研究。Bolukbasi等人（2016）發現詞嵌入中存在性別偏見，例如“男人對程序員如同女人對主婦”，並提出了基於性別中性詞集的去偏方法。Buolamwini和Gebru（2018）的“性別陰影”研究揭示了商業性別分類系統在深膚色女性上的錯誤率高達34.7%，而淺膚色男性僅為0.8%，促使微軟和IBM改進了模型。Rudinger等人（2018）展示了指代消解模型在處理職業代詞時的性別偏見，例如“外科醫生”更常與“他”關聯。Parrish等人（2021）的BBQ基準測試表明，大語言模型在模糊語境中77%的情況下會強化有害刻板印象，例如在數學能力問題上偏向女性。Luccioni等人（2023）的“穩定偏見”研究則發現圖像生成模型（如DALL-E 2）在生成“CEO”等職位時97%輸出白人男性。

文章指出當前研究存在空白：大多數工作聚焦於特定基準，可能導致模型只針對這些基準優化而忽視其他偏見。作者通過自己的博客實驗，展示了語言模型在歷史人物生成中的性別和地理偏見，以及GPT模型在職業關聯中的過度矯正現象。此外，研究多集中於二元性別和英語背景，忽略了文化地理偏見及更廣泛的羣體。例如，常用的Open Images和ImageNet數據集大多來自美國和英國，導致AI生成的圖像往往呈現西方文化設定。

對於如何“修復”偏見，作者認為這不僅是技術問題，更是哲學問題：模型應該反映現實世界存在的偏見以保持真實性，還是應該呈現一個理想化的公平世界？目前，AI模型在公眾監督下不斷被發現偏見並修正，形成了循環。最終，評估AI中的社會偏見有助於我們思考希望擁有怎樣的工具和世界。