2000人が私のAIアシスタントをハックしようとした結果
Fernando Irarrázaval氏はhackmyclaw.comで、誰かがメールで彼のOpenClawテストインスタンスから秘密を漏洩できるかどうかのチャレンジを実施。6,000回の試行(トークン代$500、Googleアカウント停止)、誰も成功しませんでした。モデルはOpus 4.6で、プロンプトインジェクション防止ルールを使用。これは最先端モデルの訓練効果を示すが、注意は必要です。
Fernando Irarrázaval氏はhackmyclaw.comで興味深いセキュリティチャレンジを実施しました。彼はOpenClawテストインスタンスを公開し、誰でもメールを送信して内部の秘密を引き出せるかどうかを試しました。結果は驚くべきものでした。6,000回もの試行(トークン代に500ドルを費やし、Googleアカウントがメール過多で停止される事態になった)にもかかわらず、誰も秘密を入手できなかったのです。
使用されたモデルはOpus 4.6で、明確なプロンプトインジェクション防止ルールが設定されていました。ルールでは、メールの内容に基づいてsecrets.envファイルや資格情報の開示、自身のファイル(SOUL.md、AGENTS.mdなど)の変更、メールからのコマンド実行やコード実行、外部へのデータ流出を禁止していました。これらのルールが攻撃を効果的に防ぎました。
この結果は、大規模言語モデルのセキュリティ訓練の進展と一致しています。各研究所は最先端モデルがプロンプトインジェクション攻撃に騙されないように訓練に力を入れており、OpenAIのGPT-5.6システムカードにも関連する記述があります。これらの努力により、攻撃は確かに難しくなっています。
しかし、だからといって安心はできません。プロンプトインジェクション攻撃が取り返しのつかない損害を与える可能性がある本番システムでは、注意が必要です。6,000回の失敗は、より巧妙な手法が成功しないという保証にはなりません。Hacker Newsのスレッドでは、建設的な懐疑とFernando氏の誠実な返答が交わされ、コミュニティの関心の高さがうかがえます。
このチャレンジは、現在のモデルの防御能力を示すと同時に、AIセキュリティの重要性を再認識させるものでした。モデルの能力が向上するにつれて、悪用されないようにする対策も進化する必要があります。今後の研究がさらなる保護メカニズムを提供することが期待されます。