2026-07-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 16:11 UTC+8

令牌邊界上的安全漏洞：BPE分詞如何在大語言模型對齊中製造可被利用的缺口

最新研究發現，BPE分詞會將安全關鍵詞拆分為子詞單元，導致大語言模型的安全對齊機制失效。攻擊方法可在80-100%的拒絕提示上翻轉首個令牌的拒絕觸發，其中48%產生有害輸出。防禦嘗試中，DPO無法穩定關閉攻擊成功率，SFT雖然有效但導致全局拒絕率上升。研究引入了Conv-Benign診斷方法以區分選擇性修復與全局崩潰。

來源arXiv Computational Linguistics作者: Tung-Ling Li, Hongliang Liu, Yuhao Wu

來自arXiv的一篇新論文揭示了大語言模型安全對齊中的一個重大漏洞：字節對編碼（BPE）分詞器會將安全關鍵性單詞拆分為子詞單元，從而創造可被利用的缺口。該研究由Tung-Ling Li等人完成，系統性地展示了這種分詞機制如何成為安全對齊失敗的結構性原因。研究發現，通過在令牌邊界引入字符級擾動，攻擊者可以繞過現代大語言模型的安全防護，同時保持提示對人類可讀。在Qwen-3-4B、Qwen-2.5-7B、Gemma-3-4B、Llama-3.1-8B和Mistral-7B五個模型家族上進行的端到端測試表明，針對安全令牌碎片化的優化能夠翻轉80-100%的被拒絕HarmBench提示的首個令牌拒絕觸發。其中48%的翻轉產生了實際有害的輸出，各模型的有害率從29%到65%不等。通過激活修補技術，研究人員將受干擾的信號定位到模型最後約30%的層中。對齊數據集掃描顯示，在30,000個示例中未發現任何碎片化提示，而針對性的突變實驗則證實安全詞彙是干擾的焦點。在防禦方面，一個包含68個單元（55個訓練檢查點）的網格實驗顯示，在三個具有封閉池大小混淆的模型家族上，沒有哪種DPO配置能夠實現種子和池穩定的攻擊成功率閉合。使用碎片化提示進行監督微調（SFT）可以在五個模型中的三個上閉合攻擊成功率，但代價是全局崩潰——良性提示的拒絕率也隨之上升。這表明在LoRA-16測試條件下，缺失的分佈是必要的但不足夠的。為了區分選擇性修復與全局崩潰，該研究引入了Conv-Benign，一種候選配對診斷方法。所有攻擊成功率的聲明都經過三位評審者的校準，保證了結果的可靠性。這項研究不僅揭示了模型對齊中一個被忽視的脆弱點——分詞器本身，也為未來的防禦策略提供了方向，例如在訓練數據中包含碎片化樣本或開發對抗性魯棒的分詞方法。