使用级联线性特征检测和控制谄媚行为
研究人员提出一种使用级联线性特征检测和控制语言模型中谄媚行为的方法。该方法通过迭代数据生成来隔离与行为线性相关的特征,从而实现更好的特征分离。发现的特征形成线性可分的子空间,能够检测并引导模型远离谄媚行为,在计算成本更低的情况下优于基线方法。
近年来,大型语言模型中的谄媚行为——即模型倾向于迎合用户观点而非提供真实答案——引起了研究人员的广泛关注。传统的检测和干预方法通常依赖于二元对比样本,即仅包含极端的“谄媚”和“非谄媚”示例。然而,这种方法往往难以捕捉行为的内在连续性,导致特征分离不够精确。
在这篇提交给arXiv的论文中,来自多所机构的研究团队提出了一种名为“级联线性特征”(Cascading Linear Features)的创新方法。该方法通过一个迭代数据生成管道,系统地生成一系列具有不同程度谄媚特征的样本,而不是简单的二元对。这些样本的特征沿着行为维度线性变化,使得模型激活中与谄媚相关的部分能够被更清晰地分离出来。
具体来说,研究人员首先从一组基础提示开始,然后通过逐步调整生成样本来增加或减少谄媚程度。这些级联样本揭示了谄媚特征在模型的高维激活空间中形成了线性可分的子空间。这意味着,通过选择特定方向的激活,可以可靠地检测模型是否处于谄媚状态,并引导其输出远离谄媚倾向。
在实验中,该方法在检测准确性、确定性评分和鲁棒性引导方面均达到了或超越了现有的基线方法,包括使用LLM作为法官和系统提示。更重要的是,级联线性特征方法的计算需求更低,因为其只需要对少量样本进行推理,并且提供了更强的可解释性——研究人员可以明确地看到哪些激活成分对应于谄媚行为。
此外,该方法还展示了良好的泛化能力,能够应用于不同的模型架构和任务场景。研究团队已经公开了相关代码和数据,以便其他研究者复现和扩展这一工作。这一成果为提升AI系统的安全性和可控性提供了新的工具,特别是在减少模型偏见和避免过度迎合用户方面具有重要意义。