AI中的性别偏见概述
本文综述了AI模型中性別偏见的研究,包括词嵌入、人脸识别、指代消解、大语言模型和图像生成模型中的偏见,并讨论了研究空白、其他类型的偏见以及解决偏见的方法与哲学问题。
人工智能模型往往会反映并放大现实世界中存在的性别偏见。为了妥善解决和缓解这些问题,量化模型中的偏见至关重要。本文简要介绍了在揭示、评估和测量AI模型中性别偏见方面的一些重要工作,并讨论了这些工作的意义及研究空白。
文章首先厘清了“AI”、“性别”和“偏见”等术语。在此上下文中,“AI”指在人类数据上训练的机器学习系统,包括词嵌入等统计模型以及ChatGPT等基于Transformer的现代模型。“性别”在AI研究中通常指二元男女(因为计算机科学家更容易测量),偶尔包含“中性”类别。“偏见”则泛指对某一群体的不平等、不利或不公正对待。有多种分类和量化偏见的方法,但不在本文讨论范围内。
随后,文章按时间顺序回顾了若干有影响力的研究。Bolukbasi等人(2016)发现词嵌入中存在性别偏见,例如“男人对程序员如同女人对主妇”,并提出了基于性别中性词集的去偏方法。Buolamwini和Gebru(2018)的“性别阴影”研究揭示了商业性别分类系统在深肤色女性上的错误率高达34.7%,而浅肤色男性仅为0.8%,促使微软和IBM改进了模型。Rudinger等人(2018)展示了指代消解模型在处理职业代词时的性别偏见,例如“外科医生”更常与“他”关联。Parrish等人(2021)的BBQ基准测试表明,大语言模型在模糊语境中77%的情况下会强化有害刻板印象,例如在数学能力问题上偏向女性。Luccioni等人(2023)的“稳定偏见”研究则发现图像生成模型(如DALL-E 2)在生成“CEO”等职位时97%输出白人男性。
文章指出当前研究存在空白:大多数工作聚焦于特定基准,可能导致模型只针对这些基准优化而忽视其他偏见。作者通过自己的博客实验,展示了语言模型在历史人物生成中的性别和地理偏见,以及GPT模型在职业关联中的过度矫正现象。此外,研究多集中于二元性别和英语背景,忽略了文化地理偏见及更广泛的群体。例如,常用的Open Images和ImageNet数据集大多来自美国和英国,导致AI生成的图像往往呈现西方文化设定。
对于如何“修复”偏见,作者认为这不仅是技术问题,更是哲学问题:模型应该反映现实世界存在的偏见以保持真实性,还是应该呈现一个理想化的公平世界?目前,AI模型在公众监督下不断被发现偏见并修正,形成了循环。最终,评估AI中的社会偏见有助于我们思考希望拥有怎样的工具和世界。