AI News HubLIVE
站內改寫2 分鐘閱讀

解決“打地鼠困境”:一種更聰明的AI視覺模型去偏方法

MIT、伍斯特理工學院和谷歌的研究人員提出了一種名為WRING的新型去偏技術,能夠在不引入或放大其他偏見的情況下,有效減少視覺語言模型中的特定偏見,解決了現有投影去偏方法導致的“打地鼠困境”。

來源MIT News AI作者: Alex Ouyang | Abdul Latif Jameel Clinic for Machine Learning in Health

在當今的醫院和診所,皮膚科醫生可能會使用人工智能模型對皮膚病變進行分類,評估病變是否有癌變風險或是良性。但如果模型對某些膚色存在偏見,就可能無法識別高風險患者。

偏見是AI研究中最持久且最廣為人知的挑戰之一。偏見通常與訓練數據相關,但模型架構本身也可能包含和放大偏見,從而在現實場景中負面影響模型性能。在醫療等高風險場景中,性能不佳的後果使得偏見成為一個關鍵的安全問題。

來自麻省理工學院、伍斯特理工學院和谷歌的研究人員在一篇被2026年國際學習表徵大會(ICLR)接收的論文中,提出了一種新穎的去偏方法,名為“加權旋轉去偏”(WRING)。該方法可應用於OpenAI的OpenCLIP等視覺語言模型(VLM)。

VLM是多模態模型,能夠同時理解和解釋視頻、圖像和文本等多種數據模態。儘管已有針對VLM的去偏方法,但最常用的“投影去偏”方法會導致所謂的“打地鼠困境”——這一經驗性觀察在2023年被正式引入AI研究。

投影去偏是一種後處理方法,通過從表示空間中“投影”出包含偏見的子空間來移除偏見。但這種方法有缺陷。論文第一作者、曾在MIT做博士後研究的Walter Gerych解釋道:“當你這樣做時,會無意中擠壓周圍的一切,模型學習到的所有其他關係都會改變。”

Gerych現在是伍斯特理工學院的計算機科學助理教授,與他共同撰寫論文的還有MIT研究生Cassandra Parent和Quinn Perian、谷歌的Rafiya Javed,以及MIT電氣工程副教授Justin Solomon和Marzyeh Ghassemi(後者是阿卜杜勒·拉蒂夫·賈米爾機器學習與健康診所及信息與決策系統實驗室的附屬成員)。

投影去偏雖然阻止了模型利用被投影出的偏見,但可能最終放大和創造其他偏見,這就是“打地鼠困境”。Ghassemi指出,模型偏見的無意放大“既是技術挑戰也是實際挑戰。例如,在去偏一個檢索臨牀工作人員圖像的VLM時,如果移除了種族偏見,可能會無意中放大性別偏見。”

WRING的工作原理是將高維空間中負責偏見的座標移動到不同角度,使得模型無法在特定概念內區分不同羣體。這改變了特定空間內的表示,同時保持模型的其他關係不變。與投影去偏一樣,WRING也是後處理方法,可直接應用於預訓練VLM。

“人們已經花費大量資源和資金訓練這些大型模型,我們不想在訓練過程中修改,因為那意味着從頭開始,”Gerych解釋説。“WRING非常高效,不需要額外訓練模型,且侵入性極小。”

研究結果顯示,WRING顯著減少了目標概念的偏見,且沒有增加其他領域的偏見。但目前該方法僅適用於對比語言-圖像預訓練(CLIP)模型,這是一種將圖像與語言連接以進行搜索或分類的VLM。

“將其擴展到ChatGPT風格的生成式語言模型是我們合理的下一步,”Gerych説。

本研究部分得到了國家科學基金會CAREER獎、AI2050早期職業研究員獎、斯隆研究獎、Gordon and Betty Moore基金會獎以及MIT-Google計算創新獎的支持。