解决“打地鼠困境”:一种更聪明的AI视觉模型去偏方法
MIT、伍斯特理工学院和谷歌的研究人员提出了一种名为WRING的新型去偏技术,能够在不引入或放大其他偏见的情况下,有效减少视觉语言模型中的特定偏见,解决了现有投影去偏方法导致的“打地鼠困境”。
在当今的医院和诊所,皮肤科医生可能会使用人工智能模型对皮肤病变进行分类,评估病变是否有癌变风险或是良性。但如果模型对某些肤色存在偏见,就可能无法识别高风险患者。
偏见是AI研究中最持久且最广为人知的挑战之一。偏见通常与训练数据相关,但模型架构本身也可能包含和放大偏见,从而在现实场景中负面影响模型性能。在医疗等高风险场景中,性能不佳的后果使得偏见成为一个关键的安全问题。
来自麻省理工学院、伍斯特理工学院和谷歌的研究人员在一篇被2026年国际学习表征大会(ICLR)接收的论文中,提出了一种新颖的去偏方法,名为“加权旋转去偏”(WRING)。该方法可应用于OpenAI的OpenCLIP等视觉语言模型(VLM)。
VLM是多模态模型,能够同时理解和解释视频、图像和文本等多种数据模态。尽管已有针对VLM的去偏方法,但最常用的“投影去偏”方法会导致所谓的“打地鼠困境”——这一经验性观察在2023年被正式引入AI研究。
投影去偏是一种后处理方法,通过从表示空间中“投影”出包含偏见的子空间来移除偏见。但这种方法有缺陷。论文第一作者、曾在MIT做博士后研究的Walter Gerych解释道:“当你这样做时,会无意中挤压周围的一切,模型学习到的所有其他关系都会改变。”
Gerych现在是伍斯特理工学院的计算机科学助理教授,与他共同撰写论文的还有MIT研究生Cassandra Parent和Quinn Perian、谷歌的Rafiya Javed,以及MIT电气工程副教授Justin Solomon和Marzyeh Ghassemi(后者是阿卜杜勒·拉蒂夫·贾米尔机器学习与健康诊所及信息与决策系统实验室的附属成员)。
投影去偏虽然阻止了模型利用被投影出的偏见,但可能最终放大和创造其他偏见,这就是“打地鼠困境”。Ghassemi指出,模型偏见的无意放大“既是技术挑战也是实际挑战。例如,在去偏一个检索临床工作人员图像的VLM时,如果移除了种族偏见,可能会无意中放大性别偏见。”
WRING的工作原理是将高维空间中负责偏见的坐标移动到不同角度,使得模型无法在特定概念内区分不同群体。这改变了特定空间内的表示,同时保持模型的其他关系不变。与投影去偏一样,WRING也是后处理方法,可直接应用于预训练VLM。
“人们已经花费大量资源和资金训练这些大型模型,我们不想在训练过程中修改,因为那意味着从头开始,”Gerych解释说。“WRING非常高效,不需要额外训练模型,且侵入性极小。”
研究结果显示,WRING显著减少了目标概念的偏见,且没有增加其他领域的偏见。但目前该方法仅适用于对比语言-图像预训练(CLIP)模型,这是一种将图像与语言连接以进行搜索或分类的VLM。
“将其扩展到ChatGPT风格的生成式语言模型是我们合理的下一步,”Gerych说。
本研究部分得到了国家科学基金会CAREER奖、AI2050早期职业研究员奖、斯隆研究奖、Gordon and Betty Moore基金会奖以及MIT-Google计算创新奖的支持。