2026-04-30 05:40 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

解决“打地鼠困境”：一种更聪明的AI视觉模型去偏方法

MIT、伍斯特理工学院和谷歌的研究人员提出了一种名为WRING的新型去偏技术，能够在不引入或放大其他偏见的情况下，有效减少视觉语言模型中的特定偏见，解决了现有投影去偏方法导致的“打地鼠困境”。

来源MIT News AI作者: Alex Ouyang | Abdul Latif Jameel Clinic for Machine Learning in Health

在当今的医院和诊所，皮肤科医生可能会使用人工智能模型对皮肤病变进行分类，评估病变是否有癌变风险或是良性。但如果模型对某些肤色存在偏见，就可能无法识别高风险患者。

偏见是AI研究中最持久且最广为人知的挑战之一。偏见通常与训练数据相关，但模型架构本身也可能包含和放大偏见，从而在现实场景中负面影响模型性能。在医疗等高风险场景中，性能不佳的后果使得偏见成为一个关键的安全问题。

来自麻省理工学院、伍斯特理工学院和谷歌的研究人员在一篇被2026年国际学习表征大会（ICLR）接收的论文中，提出了一种新颖的去偏方法，名为“加权旋转去偏”（WRING）。该方法可应用于OpenAI的OpenCLIP等视觉语言模型（VLM）。

VLM是多模态模型，能够同时理解和解释视频、图像和文本等多种数据模态。尽管已有针对VLM的去偏方法，但最常用的“投影去偏”方法会导致所谓的“打地鼠困境”——这一经验性观察在2023年被正式引入AI研究。

投影去偏是一种后处理方法，通过从表示空间中“投影”出包含偏见的子空间来移除偏见。但这种方法有缺陷。论文第一作者、曾在MIT做博士后研究的Walter Gerych解释道：“当你这样做时，会无意中挤压周围的一切，模型学习到的所有其他关系都会改变。”

Gerych现在是伍斯特理工学院的计算机科学助理教授，与他共同撰写论文的还有MIT研究生Cassandra Parent和Quinn Perian、谷歌的Rafiya Javed，以及MIT电气工程副教授Justin Solomon和Marzyeh Ghassemi（后者是阿卜杜勒·拉蒂夫·贾米尔机器学习与健康诊所及信息与决策系统实验室的附属成员）。

投影去偏虽然阻止了模型利用被投影出的偏见，但可能最终放大和创造其他偏见，这就是“打地鼠困境”。Ghassemi指出，模型偏见的无意放大“既是技术挑战也是实际挑战。例如，在去偏一个检索临床工作人员图像的VLM时，如果移除了种族偏见，可能会无意中放大性别偏见。”

WRING的工作原理是将高维空间中负责偏见的坐标移动到不同角度，使得模型无法在特定概念内区分不同群体。这改变了特定空间内的表示，同时保持模型的其他关系不变。与投影去偏一样，WRING也是后处理方法，可直接应用于预训练VLM。

“人们已经花费大量资源和资金训练这些大型模型，我们不想在训练过程中修改，因为那意味着从头开始，”Gerych解释说。“WRING非常高效，不需要额外训练模型，且侵入性极小。”

研究结果显示，WRING显著减少了目标概念的偏见，且没有增加其他领域的偏见。但目前该方法仅适用于对比语言-图像预训练（CLIP）模型，这是一种将图像与语言连接以进行搜索或分类的VLM。

“将其扩展到ChatGPT风格的生成式语言模型是我们合理的下一步，”Gerych说。

本研究部分得到了国家科学基金会CAREER奖、AI2050早期职业研究员奖、斯隆研究奖、Gordon and Betty Moore基金会奖以及MIT-Google计算创新奖的支持。