2024-04-08 23:54 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

AI中的性别偏见概述

本文综述了AI模型中性別偏见的研究，包括词嵌入、人脸识别、指代消解、大语言模型和图像生成模型中的偏见，并讨论了研究空白、其他类型的偏见以及解决偏见的方法与哲学问题。

来源The Gradient作者: Yennie Jun

人工智能模型往往会反映并放大现实世界中存在的性别偏见。为了妥善解决和缓解这些问题，量化模型中的偏见至关重要。本文简要介绍了在揭示、评估和测量AI模型中性别偏见方面的一些重要工作，并讨论了这些工作的意义及研究空白。

文章首先厘清了“AI”、“性别”和“偏见”等术语。在此上下文中，“AI”指在人类数据上训练的机器学习系统，包括词嵌入等统计模型以及ChatGPT等基于Transformer的现代模型。“性别”在AI研究中通常指二元男女（因为计算机科学家更容易测量），偶尔包含“中性”类别。“偏见”则泛指对某一群体的不平等、不利或不公正对待。有多种分类和量化偏见的方法，但不在本文讨论范围内。

随后，文章按时间顺序回顾了若干有影响力的研究。Bolukbasi等人（2016）发现词嵌入中存在性别偏见，例如“男人对程序员如同女人对主妇”，并提出了基于性别中性词集的去偏方法。Buolamwini和Gebru（2018）的“性别阴影”研究揭示了商业性别分类系统在深肤色女性上的错误率高达34.7%，而浅肤色男性仅为0.8%，促使微软和IBM改进了模型。Rudinger等人（2018）展示了指代消解模型在处理职业代词时的性别偏见，例如“外科医生”更常与“他”关联。Parrish等人（2021）的BBQ基准测试表明，大语言模型在模糊语境中77%的情况下会强化有害刻板印象，例如在数学能力问题上偏向女性。Luccioni等人（2023）的“稳定偏见”研究则发现图像生成模型（如DALL-E 2）在生成“CEO”等职位时97%输出白人男性。

文章指出当前研究存在空白：大多数工作聚焦于特定基准，可能导致模型只针对这些基准优化而忽视其他偏见。作者通过自己的博客实验，展示了语言模型在历史人物生成中的性别和地理偏见，以及GPT模型在职业关联中的过度矫正现象。此外，研究多集中于二元性别和英语背景，忽略了文化地理偏见及更广泛的群体。例如，常用的Open Images和ImageNet数据集大多来自美国和英国，导致AI生成的图像往往呈现西方文化设定。

对于如何“修复”偏见，作者认为这不仅是技术问题，更是哲学问题：模型应该反映现实世界存在的偏见以保持真实性，还是应该呈现一个理想化的公平世界？目前，AI模型在公众监督下不断被发现偏见并修正，形成了循环。最终，评估AI中的社会偏见有助于我们思考希望拥有怎样的工具和世界。