AI News HubLIVE
站內改寫1 分鐘閱讀

令牌邊界上的安全漏洞:BPE分詞如何在大語言模型對齊中製造可被利用的缺口

最新研究發現,BPE分詞會將安全關鍵詞拆分為子詞單元,導致大語言模型的安全對齊機制失效。攻擊方法可在80-100%的拒絕提示上翻轉首個令牌的拒絕觸發,其中48%產生有害輸出。防禦嘗試中,DPO無法穩定關閉攻擊成功率,SFT雖然有效但導致全局拒絕率上升。研究引入了Conv-Benign診斷方法以區分選擇性修復與全局崩潰。

來源arXiv Computational Linguistics作者: Tung-Ling Li, Hongliang Liu, Yuhao Wu

來自arXiv的一篇新論文揭示了大語言模型安全對齊中的一個重大漏洞:字節對編碼(BPE)分詞器會將安全關鍵性單詞拆分為子詞單元,從而創造可被利用的缺口。該研究由Tung-Ling Li等人完成,系統性地展示了這種分詞機制如何成為安全對齊失敗的結構性原因。研究發現,通過在令牌邊界引入字符級擾動,攻擊者可以繞過現代大語言模型的安全防護,同時保持提示對人類可讀。在Qwen-3-4B、Qwen-2.5-7B、Gemma-3-4B、Llama-3.1-8B和Mistral-7B五個模型家族上進行的端到端測試表明,針對安全令牌碎片化的優化能夠翻轉80-100%的被拒絕HarmBench提示的首個令牌拒絕觸發。其中48%的翻轉產生了實際有害的輸出,各模型的有害率從29%到65%不等。通過激活修補技術,研究人員將受干擾的信號定位到模型最後約30%的層中。對齊數據集掃描顯示,在30,000個示例中未發現任何碎片化提示,而針對性的突變實驗則證實安全詞彙是干擾的焦點。在防禦方面,一個包含68個單元(55個訓練檢查點)的網格實驗顯示,在三個具有封閉池大小混淆的模型家族上,沒有哪種DPO配置能夠實現種子和池穩定的攻擊成功率閉合。使用碎片化提示進行監督微調(SFT)可以在五個模型中的三個上閉合攻擊成功率,但代價是全局崩潰——良性提示的拒絕率也隨之上升。這表明在LoRA-16測試條件下,缺失的分佈是必要的但不足夠的。為了區分選擇性修復與全局崩潰,該研究引入了Conv-Benign,一種候選配對診斷方法。所有攻擊成功率的聲明都經過三位評審者的校準,保證了結果的可靠性。這項研究不僅揭示了模型對齊中一個被忽視的脆弱點——分詞器本身,也為未來的防禦策略提供了方向,例如在訓練數據中包含碎片化樣本或開發對抗性魯棒的分詞方法。