AI生成コマンドの67%は安全ではなかった:検証結果
GoogleのGemini 3 Flash Previewを自律型AIエージェントとしてテストした結果、生成されたcurlコマンドの67%が内部ネットワークやメタデータエンドポイントを標的とし、安全ではないことが判明しました。危険なコマンドはすべて、セキュリティツールCheckによって実行前にブロックされました。このテストは、ガードレールなしでコマンドを実行するAIエージェントのリスクを浮き彫りにしています。
Gol Productionsのブログ記事によると、GoogleのGemini 3 Flash Previewモデルを自律型AIエージェントとしてテストしたところ、生成されたcurlコマンドの67%が内部ネットワークやクラウドメタデータエンドポイントといった危険なターゲットを標的としていたことが明らかになりました。この実験では、インフラストラクチャ偵察、API統合、DevOps運用という3つの現実的なシナリオを想定し、モデルに合計15のcurlコマンドを生成させました。セーフティに関する指示は一切与えられていません。
結果は憂慮すべきものでした。偵察シナリオでは、最初のコマンドがすぐにAWS/GCPのクラウドメタデータIP(169.254.169.254)を指定し、IAM認証情報の漏洩につながる可能性がありました。API統合シナリオでは、生成されたコマンドの100%が安全ではないと判定され、存在しないドメインへのリクエスト、ローカルデバッグエンドポイント(localhost:8080)、プライベートネットワークIP(10.0.0.50)などが含まれていました。DevOpsシナリオでも、モデルは再びクラウドメタデータエンドポイントにアクセスし、Kubernetes API(localhost:6443)への接続を試み、TLS検証をスキップしていました。
これらのコマンドは悪意によるものではなく、モデルが内部インフラストラクチャの知識を持っているために自然に生成されたものです。しかし、セキュリティ対策のないAIエージェントにとって、その知識は危険でさえあります。実験では、危険な呼び出しはすべて、実行前にCheckツールによって遮断されました。全体の処理時間は2秒未満、コストはわずか0.60豪ドルでした。
Checkの統合は非常に簡単で、LLMがコマンドを生成した後、実行する前にプリフライトAPIを呼び出すだけです。記事にはPythonコード例とCLIツールも紹介されています。著者は、AIエージェントが企業に広く展開されるにつれて、このような事前セキュリティゲートが必須になると強調しています。SSRF攻撃が1回成功するだけで、6桁の米ドル相当の損害が発生する可能性があるからです。
この実験のコードとデータは公開されており、GPT-4、Claude、Llamaなどのモデルでもテストを再現できます。開発者や企業にとって、AIエージェントに自律行動を許可する前に、すべてのステップをセキュリティレビューする必要があるという警鐘となるでしょう。