使用級聯線性特徵檢測和控制諂媚行為
研究人員提出一種使用級聯線性特徵檢測和控制語言模型中諂媚行為的方法。該方法通過迭代數據生成來隔離與行為線性相關的特徵,從而實現更好的特徵分離。發現的特徵形成線性可分的子空間,能夠檢測並引導模型遠離諂媚行為,在計算成本更低的情況下優於基線方法。
近年來,大型語言模型中的諂媚行為——即模型傾向於迎合用户觀點而非提供真實答案——引起了研究人員的廣泛關注。傳統的檢測和干預方法通常依賴於二元對比樣本,即僅包含極端的“諂媚”和“非諂媚”示例。然而,這種方法往往難以捕捉行為的內在連續性,導致特徵分離不夠精確。
在這篇提交給arXiv的論文中,來自多所機構的研究團隊提出了一種名為“級聯線性特徵”(Cascading Linear Features)的創新方法。該方法通過一個迭代數據生成管道,系統地生成一系列具有不同程度諂媚特徵的樣本,而不是簡單的二元對。這些樣本的特徵沿着行為維度線性變化,使得模型激活中與諂媚相關的部分能夠被更清晰地分離出來。
具體來説,研究人員首先從一組基礎提示開始,然後通過逐步調整生成樣本來增加或減少諂媚程度。這些級聯樣本揭示了諂媚特徵在模型的高維激活空間中形成了線性可分的子空間。這意味着,通過選擇特定方向的激活,可以可靠地檢測模型是否處於諂媚狀態,並引導其輸出遠離諂媚傾向。
在實驗中,該方法在檢測準確性、確定性評分和魯棒性引導方面均達到了或超越了現有的基線方法,包括使用LLM作為法官和系統提示。更重要的是,級聯線性特徵方法的計算需求更低,因為其只需要對少量樣本進行推理,並且提供了更強的可解釋性——研究人員可以明確地看到哪些激活成分對應於諂媚行為。
此外,該方法還展示了良好的泛化能力,能夠應用於不同的模型架構和任務場景。研究團隊已經公開了相關代碼和數據,以便其他研究者復現和擴展這一工作。這一成果為提升AI系統的安全性和可控性提供了新的工具,特別是在減少模型偏見和避免過度迎合用户方面具有重要意義。