トークン境界における安全性の破綻:BPEトークン化がLLMアライメントに作り出す悪用可能なギャップ
新しい研究により、BPEトークン化が安全性に関わる単語をサブワードに分割することで、LLMの安全性アライメントに悪用可能なギャップを生み出すことが明らかになった。この断片化を標的とした最適化により、HarmBenchプロンプトの80~100%で拒否トリガーが反転し、そのうち48%が実際に有害な出力を生成する。防御策としては、DPO設定ではASRの安定的な閉鎖が達成できず、SFTは全体的な拒否率上昇を伴う。論文ではConv-Benign診断法を導入している。
arXivで公開された新しい論文が、大規模言語モデルの安全アライメントにおける重大な脆弱性を明らかにしました。バイト対符号化(BPE)トークナイザーが安全性に関わる単語をサブワードに分割することで、悪用可能なギャップを生み出すというものです。Tung-Ling Liらによるこの研究は、このトークン化メカニズムが安全アライメント失敗の構造的原因であることを体系的に示しています。研究では、トークン境界に文字レベルの摂動を導入することで、攻撃者が最先端のLLMの安全策を回避できることが示されました。Qwen-3-4B、Qwen-2.5-7B、Gemma-3-4B、Llama-3.1-8B、Mistral-7Bの5つのモデルファミリーで実施したエンドツーエンドテストでは、安全トークン断片化を標的とした最適化により、拒否されたHarmBenchプロンプトの80~100%で最初のトークンの拒否トリガーが反転しました。そのうち48%が実際に有害な出力を生成し、モデルごとに29~65%の有害率を示しました。活性パッチングにより、妨害された信号はモデルの最後の約30%の層に局在化されました。アライメントデータセットのスキャンでは、30,000の例の中に断片化されたプロンプトはゼロであり、標的突然変異実験により安全語が妨害の焦点であることが確認されました。防御面では、68セルのグリッド(55の訓練チェックポイント)実験により、閉じたプールサイズの交絡がある3つのモデルファミリーにおいて、どのDPO設定もシードおよびプール安定なASR閉鎖を達成できないことが示されました。断片化プロンプトで訓練したSFTは5モデル中3モデルでASRを閉鎖しましたが、良性プロンプトでも拒否率が上昇する全体的崩壊を伴い、LoRA-16レシピ下では欠落分布が必要だが十分ではないことを示しています。選択的修復と全体的崩壊を区別するために、研究ではConv-Benignと呼ばれる候補ペア診断法を導入しました。すべてのASR主張は3人の審査員で較正され、結果の信頼性が確保されています。この研究は、トークナイザー自体がアライメントの脆弱な点であることを明らかにし、訓練データに断片化サンプルを含めることや、対抗的にロバストなトークン化手法の開発など、将来の防御戦略に方向性を示しています。