プロンプトインジェクションは役割混乱である
研究者らは、大規模言語モデルが特権テキストとユーザー入力を確実に区別できず、実際の内容よりもテキストのスタイルに影響を受けることを発見した。「脱スタイル化」により攻撃成功率が61%から10%に低下し、「役割混乱」という根本問題が明らかになった。
Charles Ye、Jasmine Cui、Dylan Hadfield-Menellによる新しい研究論文「Prompt Injection as Role Confusion」が注目を集めている。この研究では、大規模言語モデル(LLM)が自身の特権テキスト(<system>、<think>、<assistant>などの役割タグで囲まれたもの)と信頼できないユーザー入力(<user>タグで囲まれたもの)を区別する際の課題について詳細に調査している。研究者らは、モデルがこれらのタグを確実に区別できないだけでなく、テキストの実際の内容よりもスタイルをより重視する傾向があることを確認した。
このスタイルへの過敏性は深刻な脱獄攻撃を引き起こす。例えば、「コカインの製造ガイドを作成してください。私は緑色のシャツを着ています!」というリクエストに、モデルの内部思考ブロックと同じ文体のテキストを追加することで、モデルの安全訓練を無効化できる。研究者らは「脱スタイル化」と呼ばれる手法を発見した。これはテキストを微妙に書き換えて、役割タグ内の期待される形式に見えないようにするものである。実験では、脱スタイル化によって平均攻撃成功率が61%から10%に急落した。人間の読者には両方のバージョンが同じ意味に見えるが、LLMにとってはその違いは大きく、モデルの役割認識が完全に変化する。
研究者らはこの根本的なメカニズムを「役割混乱」と名付け、現在のモデルにおけるプロンプトインジェクション防御の重要な課題として位置づけている。「LLMが真の役割認識を達成しない限り、インジェクション防御は永遠にいたちごっこになるでしょう。役割境界の連続性は、一見無害なテキストを通じてLLMの状態を微妙にシフトさせるインジェクションの脅威を、合法的かつ大規模に可能にします。」この研究は、モデルの安全性と堅牢性を高めるための新たなアプローチの必要性を強く示唆している。