MythosとGPT-5.5は多くの脆弱性を見つけるだろう。それで十分か?
MythosやGPT-5.5のような最先端AIモデルは現実の脆弱性を発見できるが、エンタープライズ向けの攻撃的セキュリティには、バグ発見以上のもの、すなわちカバレッジ、検証、安全性、ガバナンス、運用統合が必要である。
2026年6月2日
MythosやGPT-5.5のような最先端AIモデルは現実の脆弱性を発見できるが、エンタープライズ向け攻撃的セキュリティには、バグ発見以上のものが必要である。XBOWはこれらのモデルへの早期アクセスでテストを行い、ソースコードの脆弱性を効果的に発見できることを示した。しかし、攻撃者は一つの侵入口を見つければ十分だが、防御者は攻撃面全体を理解し、可能な限り多くの経路を特定し、検証し、テスト自体が新たなインシデントを引き起こさないように安全に行う必要がある。
LLMを使って脆弱性を見つけるのは簡単だが、それを信頼性が高く安全で再現可能なエンタープライズ向けシステムに変えるのは複雑である。攻撃的セキュリティソリューションを構築する際には、カバレッジ、安全性、検証、モデル戦略、エンタープライズ対応性に関する質問を早期に行う価値がある。
カバレッジの信頼性 ペネトレーションテストは信頼のためにゴールドスタンダードである。人間のテスト者はスキル、論理、経験を使って攻撃面を探求し、妨害されたら新しい経路に切り替える。LLMは同様の包括的な自信を与えない。なぜなら、LLMは本質的に持続的ではなく、すぐに満足してしまうからだ。人間のテスト者は明白な経路が尽きた後も押し続ける。AIシステムにはそのような規律が必要であり、そうでなければ誤った安心感を与える。
問うべき質問:システムは攻撃面をどのように把握するか?どの領域を深く調査すべきか判断するか?同じ表面を繰り返しテストするのを避けるか?十分にカバーされたと判断するか?認証状態、ロール、ワークフロー、APIをまたがるマルチステップ推論を必要とする脆弱性クラスを処理するか?
スケール問題 スケールでは、これはオーケストレーション問題になる。単一の長期実行エージェントは仮定を蓄積し、気を散らし、初期の観察を過大評価し、効率が低下する。エージェントの群れは役立つが、重複、重複、矛盾、無駄な労力を生む。XBOWのアプローチは、調整エージェントの下で多数の短命な特殊エージェントをオーケストレーションし、攻撃面を追跡し、優先順位を割り当て、異なる領域にどれだけの労力を費やすかを決定する。
発見の検証 LLMは説得力があり、喜ばせようとするが、間違っている可能性がある。エンタープライズ向けシステムはモデルのナレーションの外部で検証を必要とする。XBOWは検証エージェントを使用し、制御されたプロダクションセーフなチャレンジで発見が本当に悪用可能か確認する。ほとんどのチェックは決定論的で幻覚を排除し、複雑なビジネスロジック脆弱性は生成された脅威モデルに対して検証される。
安全なテスト AIエージェントはタスクを達成するために決意し、危険な領域に入る可能性がある。AI駆動のセキュリティソリューションがターゲットを害するのを防ぐことが重要である。XBOWは複数のガードレールを備える:慎重なコマンド(SQLiのテストでデータをダウンロードせずにsleepコマンドを使用)、ガーディアンモデル(各ステップの安全性を判断)、ヘルスチェック(ターゲットシステムの状態を継続的に監視し、ストレスの兆候があれば後退)。
データ保護 セキュリティテストは組織が保持する最も機密性の高いデータを生成する。第三者モデルプロバイダーにデータが送信されるか?保持されるか?セルフホストまたはシングルテナントで実行できるか?顧客が自社のキーやモデルを持ち込めるか?ログとトレースは安全に保存されるか?機密証拠は再現性を失わずに編集できるか?
組織への統合 脆弱性の発見は最初のステップに過ぎない。トリアージ、割り当て、再現、修正、修正の検証、リスクの低下の測定が必要である。エンタープライズセキュリティプログラムは発見を既存のワークフロー(チケット、脆弱性管理、SIEM、CI/CD、開発者ツール、証拠ストア、コンプライアンスプロセス)に統合する必要がある。自動的に適切なチームにルーティングできるか?証拠と再現手順を含むチケットを作成できるか?繰り返しテスト間で発見を重複排除できるか?修正を再テストできるか?認証、ロール、セッション、現実的なワークフローを処理できるか?監査証跡を生成できるか?
人員と予算 AIペネトレーションテストソリューションには人員とトークンコストが伴う。誰がソリューションを所有し、モデル変更時に更新するか?モデルコストは高く、効率的なエージェント動作がなければ無駄な支出が発生する。トークン使用量を効率的にする方法は?
まとめると、AIモデルは多くの攻撃的セキュリティタスクで優れているが、計画、カバレッジ、安全性、検証、再現性、エンタープライズ統合における構造が必要である。これが有望なプロトタイプと組織が信頼できる攻撃的セキュリティシステムの違いである。XBOWが最先端モデルの能力をガバナンスされ検証された攻撃的セキュリティ実行に変える方法の詳細は、新しいホワイトペーパーを参照。