2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

专家感知的拒绝引导

这项研究将拒绝引导方法扩展到混合专家（MoE）大型语言模型，发现引导性能不受MoE复杂路由模式的影响。作者提出了两种专家感知的拒绝引导方法，利用拒绝特定的专家路由模式和专家特定的引导方向来抑制正常拒绝行为。结果显示，基于单个专家的输出即可有效引导拒绝行为，且拒绝信号与专家路由行为不同，表明注意力在MoE拒绝行为中起重要作用。

来源arXiv Computational Linguistics作者: Anna C. Marbut, Daniel R. Olson, Travis J. Wheeler

在大语言模型（LLM）快速发展的背景下，确保模型的安全对齐成为关键挑战。安全对齐的核心之一是模型能够可靠地拒绝响应有害、非法或不当的请求。为此，研究者们提出了多种方法，其中“拒绝引导”是一种通过施加引导向量在推理过程中抑制拒绝行为的技术，此前主要应用于密集（dense）架构的LLM。

近日，一项新研究将这一方法扩展到混合专家（Mixture-of-Experts, MoE）架构的模型。MoE模型因其高效的计算特性而日益流行，但其复杂的路由机制——每个token被动态分配给不同的专家——给引导方法带来了不确定性。然而，实验表明，拒绝引导在MoE模型上同样有效，其性能并未因路由复杂性而下降。研究团队在三个开源MoE模型（如Qwen2.5-MoE、DeepSeek-MoE等）上进行了验证，均获得了积极结果。

基于此，作者提出了两种专家感知的拒绝引导方法。第一种方法利用拒绝行为触发时专家路由的特定模式，即找出与拒绝相关的专家子集，并以此为引导目标；第二种方法则计算针对每个专家的特定引导方向，从而更精确地控制模型输出。令人惊讶的是，这两种方法仅需使用单个专家的输出即可实现显著的拒绝抑制效果。这一发现表明，拒绝信号可能集中在少数专家上，而非均匀分布在所有专家中。

进一步的分析揭示了更深的机制：通过引导方法提取的拒绝信号与专家路由行为本身存在差异。也就是说，模型在拒绝时激活的专家集合，与通过引导捕捉到的拒绝表示并不相同。这暗示注意力机制可能在MoE的拒绝行为中发挥了比专家路由更重要的作用。

该论文目前正在COLM 2026会议审稿中。这项研究不仅拓宽了拒绝引导技术的应用范围，也为理解MoE模型的安全特性提供了宝贵见解。未来，随着MoE架构在更大规模模型中的应用，这些发现将对模型的可控性、安全评测以及潜在风险规避产生深远影响。同时，这也提醒研究人员，拒绝引导技术可能被用于绕过安全对齐，需要在模型部署时加以防范。