2026-07-03 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-07-03 17:11 UTC+9

トークン境界における安全性の破綻：BPEトークン化がLLMアライメントに作り出す悪用可能なギャップ

新しい研究により、BPEトークン化が安全性に関わる単語をサブワードに分割することで、LLMの安全性アライメントに悪用可能なギャップを生み出すことが明らかになった。この断片化を標的とした最適化により、HarmBenchプロンプトの80～100%で拒否トリガーが反転し、そのうち48%が実際に有害な出力を生成する。防御策としては、DPO設定ではASRの安定的な閉鎖が達成できず、SFTは全体的な拒否率上昇を伴う。論文ではConv-Benign診断法を導入している。

ソースarXiv Computational Linguistics著者: Tung-Ling Li, Hongliang Liu, Yuhao Wu

記事インテリジェンス

エンジニア上級

要点

BPEトークン化は安全上重要な単語を分割するが、既存のアライメントデータセットにはそのような断片化された入力が存在しない。
トークン断片化を利用した攻撃により、HarmBenchプロンプトの80～100%で拒否トリガーが反転する。
どのDPO設定も安定したASR閉鎖を達成できず、SFTは全体的な拒否率上昇を代償とする。
Conv-Benign診断法は選択的修復と全体的崩壊を区別するのに役立つ。

重要な理由

このニュースが重要なのは、BPEトークン化は安全上重要な単語を分割するが、既存のアライメントデータセットにはそのような断片化された入力が存在しないためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

arXivで公開された新しい論文が、大規模言語モデルの安全アライメントにおける重大な脆弱性を明らかにしました。バイト対符号化（BPE）トークナイザーが安全性に関わる単語をサブワードに分割することで、悪用可能なギャップを生み出すというものです。Tung-Ling Liらによるこの研究は、このトークン化メカニズムが安全アライメント失敗の構造的原因であることを体系的に示しています。研究では、トークン境界に文字レベルの摂動を導入することで、攻撃者が最先端のLLMの安全策を回避できることが示されました。Qwen-3-4B、Qwen-2.5-7B、Gemma-3-4B、Llama-3.1-8B、Mistral-7Bの5つのモデルファミリーで実施したエンドツーエンドテストでは、安全トークン断片化を標的とした最適化により、拒否されたHarmBenchプロンプトの80～100%で最初のトークンの拒否トリガーが反転しました。そのうち48%が実際に有害な出力を生成し、モデルごとに29～65%の有害率を示しました。活性パッチングにより、妨害された信号はモデルの最後の約30%の層に局在化されました。アライメントデータセットのスキャンでは、30,000の例の中に断片化されたプロンプトはゼロであり、標的突然変異実験により安全語が妨害の焦点であることが確認されました。防御面では、68セルのグリッド（55の訓練チェックポイント）実験により、閉じたプールサイズの交絡がある3つのモデルファミリーにおいて、どのDPO設定もシードおよびプール安定なASR閉鎖を達成できないことが示されました。断片化プロンプトで訓練したSFTは5モデル中3モデルでASRを閉鎖しましたが、良性プロンプトでも拒否率が上昇する全体的崩壊を伴い、LoRA-16レシピ下では欠落分布が必要だが十分ではないことを示しています。選択的修復と全体的崩壊を区別するために、研究ではConv-Benignと呼ばれる候補ペア診断法を導入しました。すべてのASR主張は3人の審査員で較正され、結果の信頼性が確保されています。この研究は、トークナイザー自体がアライメントの脆弱な点であることを明らかにし、訓練データに断片化サンプルを含めることや、対抗的にロバストなトークン化手法の開発など、将来の防御戦略に方向性を示しています。