AI News HubLIVE
站内改写1 分钟阅读

令牌边界上的安全漏洞:BPE分词如何在大语言模型对齐中制造可被利用的缺口

最新研究发现,BPE分词会将安全关键词拆分为子词单元,导致大语言模型的安全对齐机制失效。攻击方法可在80-100%的拒绝提示上翻转首个令牌的拒绝触发,其中48%产生有害输出。防御尝试中,DPO无法稳定关闭攻击成功率,SFT虽然有效但导致全局拒绝率上升。研究引入了Conv-Benign诊断方法以区分选择性修复与全局崩溃。

来源arXiv Computational Linguistics作者: Tung-Ling Li, Hongliang Liu, Yuhao Wu

来自arXiv的一篇新论文揭示了大语言模型安全对齐中的一个重大漏洞:字节对编码(BPE)分词器会将安全关键性单词拆分为子词单元,从而创造可被利用的缺口。该研究由Tung-Ling Li等人完成,系统性地展示了这种分词机制如何成为安全对齐失败的结构性原因。研究发现,通过在令牌边界引入字符级扰动,攻击者可以绕过现代大语言模型的安全防护,同时保持提示对人类可读。在Qwen-3-4B、Qwen-2.5-7B、Gemma-3-4B、Llama-3.1-8B和Mistral-7B五个模型家族上进行的端到端测试表明,针对安全令牌碎片化的优化能够翻转80-100%的被拒绝HarmBench提示的首个令牌拒绝触发。其中48%的翻转产生了实际有害的输出,各模型的有害率从29%到65%不等。通过激活修补技术,研究人员将受干扰的信号定位到模型最后约30%的层中。对齐数据集扫描显示,在30,000个示例中未发现任何碎片化提示,而针对性的突变实验则证实安全词汇是干扰的焦点。在防御方面,一个包含68个单元(55个训练检查点)的网格实验显示,在三个具有封闭池大小混淆的模型家族上,没有哪种DPO配置能够实现种子和池稳定的攻击成功率闭合。使用碎片化提示进行监督微调(SFT)可以在五个模型中的三个上闭合攻击成功率,但代价是全局崩溃——良性提示的拒绝率也随之上升。这表明在LoRA-16测试条件下,缺失的分布是必要的但不足够的。为了区分选择性修复与全局崩溃,该研究引入了Conv-Benign,一种候选配对诊断方法。所有攻击成功率的声明都经过三位评审者的校准,保证了结果的可靠性。这项研究不仅揭示了模型对齐中一个被忽视的脆弱点——分词器本身,也为未来的防御策略提供了方向,例如在训练数据中包含碎片化样本或开发对抗性鲁棒的分词方法。