專家感知的拒絕引導
這項研究將拒絕引導方法擴展到混合專家(MoE)大型語言模型,發現引導性能不受MoE複雜路由模式的影響。作者提出了兩種專家感知的拒絕引導方法,利用拒絕特定的專家路由模式和專家特定的引導方向來抑制正常拒絕行為。結果顯示,基於單個專家的輸出即可有效引導拒絕行為,且拒絕信號與專家路由行為不同,表明注意力在MoE拒絕行為中起重要作用。
在大語言模型(LLM)快速發展的背景下,確保模型的安全對齊成為關鍵挑戰。安全對齊的核心之一是模型能夠可靠地拒絕響應有害、非法或不當的請求。為此,研究者們提出了多種方法,其中“拒絕引導”是一種通過施加引導向量在推理過程中抑制拒絕行為的技術,此前主要應用於密集(dense)架構的LLM。
近日,一項新研究將這一方法擴展到混合專家(Mixture-of-Experts, MoE)架構的模型。MoE模型因其高效的計算特性而日益流行,但其複雜的路由機制——每個token被動態分配給不同的專家——給引導方法帶來了不確定性。然而,實驗表明,拒絕引導在MoE模型上同樣有效,其性能並未因路由複雜性而下降。研究團隊在三個開源MoE模型(如Qwen2.5-MoE、DeepSeek-MoE等)上進行了驗證,均獲得了積極結果。
基於此,作者提出了兩種專家感知的拒絕引導方法。第一種方法利用拒絕行為觸發時專家路由的特定模式,即找出與拒絕相關的專家子集,並以此為引導目標;第二種方法則計算針對每個專家的特定引導方向,從而更精確地控制模型輸出。令人驚訝的是,這兩種方法僅需使用單個專家的輸出即可實現顯著的拒絕抑制效果。這一發現表明,拒絕信號可能集中在少數專家上,而非均勻分佈在所有專家中。
進一步的分析揭示了更深的機制:通過引導方法提取的拒絕信號與專家路由行為本身存在差異。也就是説,模型在拒絕時激活的專家集合,與通過引導捕捉到的拒絕表示並不相同。這暗示注意力機制可能在MoE的拒絕行為中發揮了比專家路由更重要的作用。
該論文目前正在COLM 2026會議審稿中。這項研究不僅拓寬了拒絕引導技術的應用範圍,也為理解MoE模型的安全特性提供了寶貴見解。未來,隨着MoE架構在更大規模模型中的應用,這些發現將對模型的可控性、安全評測以及潛在風險規避產生深遠影響。同時,這也提醒研究人員,拒絕引導技術可能被用於繞過安全對齊,需要在模型部署時加以防範。