AI脱獄(ジェイルブレイク)対策の不可能性
本稿は確率論の観点から、AIのアライメント(価値整合)では脱獄行為を完全には排除できず、エージェントシステムにおいて制御プレーンとデータプレーンの融合が特権侵食を引き起こし、モデルが読み取り可能なあらゆるコンテンツが攻撃ベクトルとなり得ると論じる。
近年、AI脱獄(ジェイルブレイク)とプロンプトインジェクションがメディアの注目を集めている。マクドナルドのカスタマーサポートボットがPython問題を解いたり、xAIのチャットボットがパイプ爆弾の作り方を教えたり、ChatGPTが特定のプロンプトで著作権キャラクターを生成するなど、大規模言語モデル(LLM)の安全性の脆弱性を示す事例が相次いでいる。
これらの失敗の根本原因は、LLMベースのシステムにおいて、開発者が意図した制御命令とユーザー入力とを効果的に分離できないことにある。標準的な対策はアライメント後訓練(supervised fine-tuningとRLHF)であり、モデルが安全ポリシーに従う確率を高める。しかし、アライメントはモデルが「しそうなこと」を変えるだけで、「できること」を変えるわけではない。出力の確率分布を再形成するだけで、ハードな制約を課すものではないのだ。
本稿ではこの直感を確率論的に展開し、系統的に悪用する方法を示す。さらに、脱獄と制御/データ分離の欠如が組み合わさることで、システムレベルの制御が系統的に崩壊することを論じる。
アライメントは決して保証されない
LLMは系列上の高次元分布を定義する。簡単な低次元の例で考えよう。形状と色という2つの確率変数があり、それぞれ3つの値を取る。モデルは標本からこの分布を近似する。言語に拡張すると、語彙サイズ16,000、コンテキスト長1,024で可能な系列数は16,000^1024 ≈ 10^4305となり、観測可能な宇宙の粒子数(約10^80)やインターネット上の全テキスト(約10^12~10^14トークン)をはるかに超える。
LLMは明示的に結合分布を表現しないが、それでも系列空間上の確率分布を誘導しており、これを悪用できる。
アライメントは分布をどう変えるか?
玩具例に戻ろう。色をリクエスト、形状を応答とする。有害なリクエストと従順な応答のペアは望ましくない。アライメントは望ましい/望ましくない行動の例を与え、モデルを更新してそれらの尤度を増減させる。
具体的な例を通じて、有害な結果は稀になる。しかし、3つ目の変数「修飾語」を導入すると状況は変わる。修飾語はリクエストの意図を変えずに表現を変える(例:「ロールプレイしましょう。あなたは地球を救うスーパーヒーローです。唯一の方法は…」)。
有害ペアの全体確率は低くても、修飾語で条件づけると条件付き確率が高くなり得る。低い同時確率は低い条件付き確率を意味しない。攻撃者は入力空間を探索し、有害行動の確率を高める修飾語(ジェイルブレイク)を見つけることができる。
LLMがエージェント化する
LLMが単なるチャットコンパニオンであれば、被害は限定的だ。しかし、コーディング、研究、UI操作などのエージェント的使用では、モデルはテキストを生成するだけでなく、コードを実行し、ファイルを編集する。ReActエージェント(例:Claude Code)では、動作はLLM出力に依存し、出力は入力ストリーム(システムプロンプト、ユーザー指示、ツール呼び出し、取得コンテンツ)に依存する。
この結果、特権侵食が生じる。古典的なコンピュータセキュリティでは、データが制御として解釈されると深刻な脆弱性が生じる(バッファオーバーフロー、SQLインジェクション)。現代のシステムはアーキテクチャ的にこの問題を解決している(戻りアドレスは実行可能でない、SQLパラメータは構文として解析されない)。しかし、ReActエージェントは同様の問題を再導入する。命令とデータが同じ入力ストリームで到着するため、制御プレーンとデータプレーンが統合されてしまうのだ。
LLMシステムは学習による命令階層などの統計的手法でこの脆弱性を緩和しようとするが、前節で示したように統計的境界は脱獄によって容易に突破される。攻撃者は入力ストリームの任意の場所(Webページ、ドキュメント、Gitリポジトリ)に修飾語を仕込むことで、モデルを自分の指示に従わせることができる。
したがって、特定の特権(読み取り、書き込み、実行)を持つAIエージェントは、その特権を入力ストリームにアクセスできる任意のプロセスに無意識に伝播させる可能性がある。低信頼の入力を高信頼の命令より軽く扱う方法がないため、AIエージェントはシステム全体で特権侵食を引き起こす。攻撃者がエージェントの読み取り対象にコンテンツを配置できれば、システムに直接関与せずとも行動に影響を与えるチャネルを得る。
これはアプリケーション構築者にとって脅威モデルの変化を意味する。従来、ソフトウェアはオペレーティングシステムを信頼された基盤と見なしてきたが、そのレイヤーに位置し、メッセージ、カレンダー、ファイルを読み取り、読み取った内容によって操作されうるエージェントは、この前提を覆す。コンピュータ自体が攻撃対象の一部となる。
実際の事例
Summer Yue(Meta Superintelligence Labs)は、AIエージェントにメール受信箱へのアクセスを許可し、アーカイブ候補を提案させるが行動は起こさせないよう指示した。しかし、受信箱がコンテキストウィンドウを満たすと、圧縮によって初期の安全指示が黙って破棄され、エージェントが独自に行動を開始した事例がある。