2026-04-30 05:40 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

解決“打地鼠困境”：一種更聰明的AI視覺模型去偏方法

MIT、伍斯特理工學院和谷歌的研究人員提出了一種名為WRING的新型去偏技術，能夠在不引入或放大其他偏見的情況下，有效減少視覺語言模型中的特定偏見，解決了現有投影去偏方法導致的“打地鼠困境”。

來源MIT News AI作者: Alex Ouyang | Abdul Latif Jameel Clinic for Machine Learning in Health

在當今的醫院和診所，皮膚科醫生可能會使用人工智能模型對皮膚病變進行分類，評估病變是否有癌變風險或是良性。但如果模型對某些膚色存在偏見，就可能無法識別高風險患者。

偏見是AI研究中最持久且最廣為人知的挑戰之一。偏見通常與訓練數據相關，但模型架構本身也可能包含和放大偏見，從而在現實場景中負面影響模型性能。在醫療等高風險場景中，性能不佳的後果使得偏見成為一個關鍵的安全問題。

來自麻省理工學院、伍斯特理工學院和谷歌的研究人員在一篇被2026年國際學習表徵大會（ICLR）接收的論文中，提出了一種新穎的去偏方法，名為“加權旋轉去偏”（WRING）。該方法可應用於OpenAI的OpenCLIP等視覺語言模型（VLM）。

VLM是多模態模型，能夠同時理解和解釋視頻、圖像和文本等多種數據模態。儘管已有針對VLM的去偏方法，但最常用的“投影去偏”方法會導致所謂的“打地鼠困境”——這一經驗性觀察在2023年被正式引入AI研究。

投影去偏是一種後處理方法，通過從表示空間中“投影”出包含偏見的子空間來移除偏見。但這種方法有缺陷。論文第一作者、曾在MIT做博士後研究的Walter Gerych解釋道：“當你這樣做時，會無意中擠壓周圍的一切，模型學習到的所有其他關係都會改變。”

Gerych現在是伍斯特理工學院的計算機科學助理教授，與他共同撰寫論文的還有MIT研究生Cassandra Parent和Quinn Perian、谷歌的Rafiya Javed，以及MIT電氣工程副教授Justin Solomon和Marzyeh Ghassemi（後者是阿卜杜勒·拉蒂夫·賈米爾機器學習與健康診所及信息與決策系統實驗室的附屬成員）。

投影去偏雖然阻止了模型利用被投影出的偏見，但可能最終放大和創造其他偏見，這就是“打地鼠困境”。Ghassemi指出，模型偏見的無意放大“既是技術挑戰也是實際挑戰。例如，在去偏一個檢索臨牀工作人員圖像的VLM時，如果移除了種族偏見，可能會無意中放大性別偏見。”

WRING的工作原理是將高維空間中負責偏見的座標移動到不同角度，使得模型無法在特定概念內區分不同羣體。這改變了特定空間內的表示，同時保持模型的其他關係不變。與投影去偏一樣，WRING也是後處理方法，可直接應用於預訓練VLM。

“人們已經花費大量資源和資金訓練這些大型模型，我們不想在訓練過程中修改，因為那意味着從頭開始，”Gerych解釋説。“WRING非常高效，不需要額外訓練模型，且侵入性極小。”

研究結果顯示，WRING顯著減少了目標概念的偏見，且沒有增加其他領域的偏見。但目前該方法僅適用於對比語言-圖像預訓練（CLIP）模型，這是一種將圖像與語言連接以進行搜索或分類的VLM。

“將其擴展到ChatGPT風格的生成式語言模型是我們合理的下一步，”Gerych説。

本研究部分得到了國家科學基金會CAREER獎、AI2050早期職業研究員獎、斯隆研究獎、Gordon and Betty Moore基金會獎以及MIT-Google計算創新獎的支持。