2026-07-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 16:11 UTC+8

令牌边界上的安全漏洞：BPE分词如何在大语言模型对齐中制造可被利用的缺口

最新研究发现，BPE分词会将安全关键词拆分为子词单元，导致大语言模型的安全对齐机制失效。攻击方法可在80-100%的拒绝提示上翻转首个令牌的拒绝触发，其中48%产生有害输出。防御尝试中，DPO无法稳定关闭攻击成功率，SFT虽然有效但导致全局拒绝率上升。研究引入了Conv-Benign诊断方法以区分选择性修复与全局崩溃。

来源arXiv Computational Linguistics作者: Tung-Ling Li, Hongliang Liu, Yuhao Wu

来自arXiv的一篇新论文揭示了大语言模型安全对齐中的一个重大漏洞：字节对编码（BPE）分词器会将安全关键性单词拆分为子词单元，从而创造可被利用的缺口。该研究由Tung-Ling Li等人完成，系统性地展示了这种分词机制如何成为安全对齐失败的结构性原因。研究发现，通过在令牌边界引入字符级扰动，攻击者可以绕过现代大语言模型的安全防护，同时保持提示对人类可读。在Qwen-3-4B、Qwen-2.5-7B、Gemma-3-4B、Llama-3.1-8B和Mistral-7B五个模型家族上进行的端到端测试表明，针对安全令牌碎片化的优化能够翻转80-100%的被拒绝HarmBench提示的首个令牌拒绝触发。其中48%的翻转产生了实际有害的输出，各模型的有害率从29%到65%不等。通过激活修补技术，研究人员将受干扰的信号定位到模型最后约30%的层中。对齐数据集扫描显示，在30,000个示例中未发现任何碎片化提示，而针对性的突变实验则证实安全词汇是干扰的焦点。在防御方面，一个包含68个单元（55个训练检查点）的网格实验显示，在三个具有封闭池大小混淆的模型家族上，没有哪种DPO配置能够实现种子和池稳定的攻击成功率闭合。使用碎片化提示进行监督微调（SFT）可以在五个模型中的三个上闭合攻击成功率，但代价是全局崩溃——良性提示的拒绝率也随之上升。这表明在LoRA-16测试条件下，缺失的分布是必要的但不足够的。为了区分选择性修复与全局崩溃，该研究引入了Conv-Benign，一种候选配对诊断方法。所有攻击成功率的声明都经过三位评审者的校准，保证了结果的可靠性。这项研究不仅揭示了模型对齐中一个被忽视的脆弱点——分词器本身，也为未来的防御策略提供了方向，例如在训练数据中包含碎片化样本或开发对抗性鲁棒的分词方法。