DSO:用於偏差緩解的直接轉向最佳化
蘋果機器學習研究團隊提出DSO(直接轉向最佳化),利用強化學習學習線性變換來轉向模型啟用,在視覺-語言模型(VLM)和大語言模型(LLM)中有效緩解偏差,實現了公平性與效能之間最先進的權衡,並允許使用者在推理時控制這一權衡。
蘋果機器學習研究團隊在即將於CVPR 2026會議上發表的一篇論文中,提出了一種名為DSO(Direct Steering Optimization,直接轉向最佳化)的新方法,用於緩解生成模型中的偏差。該研究由Lucas Monteiro Paes、Nivedha Sivakumar、Oliver Wang、Masha Fedzechkina、Barry-John Theobald、Luca Zappella和Nicholas Apostoloff共同完成,其中部分作者來自卡內基梅隆大學,部分工作是在蘋果完成的。
生成模型(如視覺-語言模型VLM)常被用於代表使用者做出決策,例如幫助視障人士識別房間中的醫生。然而,研究發現這些模型在決策時會受到輸入中人物感知人口統計屬性的影響,從而產生偏差性結果,例如未能將女性識別為醫生。這種偏差不僅損害了公平性,還限制了模型在現實場景中的可靠應用。此外,當試圖減少偏差時,往往會伴隨著模型整體效能的下降,而不同使用者對於偏差緩解與效能保留之間的平衡有著不同的需求,因此亟需一種能夠在推理時實現可控偏差減少的方法。
啟用轉向(Activation Steering)是一種流行的推理時可控性方法,已在大型語言模型(LLM)中展現出誘導更安全行為的潛力。但現有的轉向方法在糾正偏差方面效果欠佳,尤其是在需要跨人口統計組實現等機率結果的場景中。DSO創新地引入了強化學習框架,透過學習線性變換來轉向模型的啟用值,從而專門針對偏差緩解進行最佳化,同時保持對模型效能的控制。
在實驗部分,研究團隊在多個VLM和LLM上對DSO進行了評估,結果表明DSO在公平性與能力之間達到了當前最先進的權衡。具體而言,DSO能夠顯著降低模型輸出中的偏差,同時將效能損失控制在最小範圍內。更重要的是,DSO賦予實踐者推理時對權衡的精細控制能力,使得他們可以根據具體應用場景動態調整偏差緩解的力度。
這項工作的核心貢獻在於,它強調了設計直接最佳化目標來引導模型行為的轉向策略的優勢,而非依賴預定義的啟發式規則。透過將轉向轉化為一個可最佳化的強化學習問題,DSO提供了比現有方法更有效、更靈活的偏差干預手段。研究團隊已計劃在GitHub上釋出相關程式碼,以促進該領域的進一步研究。
蘋果機器學習研究團隊此前在可控生成領域也有多項成果,例如2025年提出的Activation Transport方法以及2023年的STEER語音助手轉向檢測模型。DSO的提出進一步拓展了該團隊在模型可控性和公平性方面的研究脈絡,為構建更可靠、更公平的AI系統提供了新的工具。