AI News HubLIVE
站内改写2 分钟阅读

DSO:用于偏差缓解的直接转向优化

苹果机器学习研究团队提出DSO(直接转向优化),利用强化学习学习线性变换来转向模型激活,在视觉-语言模型(VLM)和大语言模型(LLM)中有效缓解偏差,实现了公平性与性能之间最先进的权衡,并允许用户在推理时控制这一权衡。

苹果机器学习研究团队在即将于CVPR 2026会议上发表的一篇论文中,提出了一种名为DSO(Direct Steering Optimization,直接转向优化)的新方法,用于缓解生成模型中的偏差。该研究由Lucas Monteiro Paes、Nivedha Sivakumar、Oliver Wang、Masha Fedzechkina、Barry-John Theobald、Luca Zappella和Nicholas Apostoloff共同完成,其中部分作者来自卡内基梅隆大学,部分工作是在苹果完成的。

生成模型(如视觉-语言模型VLM)常被用于代表用户做出决策,例如帮助视障人士识别房间中的医生。然而,研究发现这些模型在决策时会受到输入中人物感知人口统计属性的影响,从而产生偏差性结果,例如未能将女性识别为医生。这种偏差不仅损害了公平性,还限制了模型在现实场景中的可靠应用。此外,当试图减少偏差时,往往会伴随着模型整体性能的下降,而不同用户对于偏差缓解与性能保留之间的平衡有着不同的需求,因此亟需一种能够在推理时实现可控偏差减少的方法。

激活转向(Activation Steering)是一种流行的推理时可控性方法,已在大型语言模型(LLM)中展现出诱导更安全行为的潜力。但现有的转向方法在纠正偏差方面效果欠佳,尤其是在需要跨人口统计组实现等概率结果的场景中。DSO创新地引入了强化学习框架,通过学习线性变换来转向模型的激活值,从而专门针对偏差缓解进行优化,同时保持对模型性能的控制。

在实验部分,研究团队在多个VLM和LLM上对DSO进行了评估,结果表明DSO在公平性与能力之间达到了当前最先进的权衡。具体而言,DSO能够显著降低模型输出中的偏差,同时将性能损失控制在最小范围内。更重要的是,DSO赋予实践者推理时对权衡的精细控制能力,使得他们可以根据具体应用场景动态调整偏差缓解的力度。

这项工作的核心贡献在于,它强调了设计直接优化目标来引导模型行为的转向策略的优势,而非依赖预定义的启发式规则。通过将转向转化为一个可优化的强化学习问题,DSO提供了比现有方法更有效、更灵活的偏差干预手段。研究团队已计划在GitHub上发布相关代码,以促进该领域的进一步研究。

苹果机器学习研究团队此前在可控生成领域也有多项成果,例如2025年提出的Activation Transport方法以及2023年的STEER语音助手转向检测模型。DSO的提出进一步拓展了该团队在模型可控性和公平性方面的研究脉络,为构建更可靠、更公平的AI系统提供了新的工具。