AI News HubLIVE
站內改寫2 分鐘閱讀

AI中的性別偏見概述

本文綜述了AI模型中性別偏見的研究,包括詞嵌入、人臉識別、指代消解、大語言模型和圖像生成模型中的偏見,並討論了研究空白、其他類型的偏見以及解決偏見的方法與哲學問題。

來源The Gradient作者: Yennie Jun

人工智能模型往往會反映並放大現實世界中存在的性別偏見。為了妥善解決和緩解這些問題,量化模型中的偏見至關重要。本文簡要介紹了在揭示、評估和測量AI模型中性別偏見方面的一些重要工作,並討論了這些工作的意義及研究空白。

文章首先釐清了“AI”、“性別”和“偏見”等術語。在此上下文中,“AI”指在人類數據上訓練的機器學習系統,包括詞嵌入等統計模型以及ChatGPT等基於Transformer的現代模型。“性別”在AI研究中通常指二元男女(因為計算機科學家更容易測量),偶爾包含“中性”類別。“偏見”則泛指對某一羣體的不平等、不利或不公正對待。有多種分類和量化偏見的方法,但不在本文討論範圍內。

隨後,文章按時間順序回顧了若干有影響力的研究。Bolukbasi等人(2016)發現詞嵌入中存在性別偏見,例如“男人對程序員如同女人對主婦”,並提出了基於性別中性詞集的去偏方法。Buolamwini和Gebru(2018)的“性別陰影”研究揭示了商業性別分類系統在深膚色女性上的錯誤率高達34.7%,而淺膚色男性僅為0.8%,促使微軟和IBM改進了模型。Rudinger等人(2018)展示了指代消解模型在處理職業代詞時的性別偏見,例如“外科醫生”更常與“他”關聯。Parrish等人(2021)的BBQ基準測試表明,大語言模型在模糊語境中77%的情況下會強化有害刻板印象,例如在數學能力問題上偏向女性。Luccioni等人(2023)的“穩定偏見”研究則發現圖像生成模型(如DALL-E 2)在生成“CEO”等職位時97%輸出白人男性。

文章指出當前研究存在空白:大多數工作聚焦於特定基準,可能導致模型只針對這些基準優化而忽視其他偏見。作者通過自己的博客實驗,展示了語言模型在歷史人物生成中的性別和地理偏見,以及GPT模型在職業關聯中的過度矯正現象。此外,研究多集中於二元性別和英語背景,忽略了文化地理偏見及更廣泛的羣體。例如,常用的Open Images和ImageNet數據集大多來自美國和英國,導致AI生成的圖像往往呈現西方文化設定。

對於如何“修復”偏見,作者認為這不僅是技術問題,更是哲學問題:模型應該反映現實世界存在的偏見以保持真實性,還是應該呈現一個理想化的公平世界?目前,AI模型在公眾監督下不斷被發現偏見並修正,形成了循環。最終,評估AI中的社會偏見有助於我們思考希望擁有怎樣的工具和世界。