AI News HubLIVE
サイト内リライト2 分で読了

Devin Security Swarm:AI駆動のコードセキュリティ解析の新パラダイム

Devinは、新しいアーキテクチャ「Agentic MapReduce」を採用した自動セキュリティ分析ツール「Security Swarm」を発表。実際のコードベースをセキュリティ研究チームのように分析し、攻撃面をマッピング、並列調査、脆弱性を検証する。評価では72%の再現率を達成し、コストは次善のツールの約3分の2。

ソースHacker News AI著者: meco

Devinは本日、Security Swarmを発表しました。これは、新たな「Agentic MapReduce」アーキテクチャを採用した自動セキュリティ分析ツールです。このツールは、セキュリティ研究チームのワークフローを模倣し、実際のコードベースを分析して攻撃面をマッピングし、並列で調査を展開し、検証済みの脆弱性のランク付けリストにまとめます。

Security Swarmの核となるのは、Agentic MapReduceアーキテクチャです。プロセスはプランナーエージェントから始まり、リポジトリを調査してセレクター(コードベースに対する決定論的な関連性テスト)を作成します。これには、ルート、認証境界、デシリアライゼーションシンクなどが含まれます。これらのセレクターはすべてのファイルに対してモデルを介さずに実行されるため、一致しないファイルはエージェントが調査する前に除外され、カバレッジが保証されます。一致したファイルはバッチ処理され、子エージェントに渡されて並列調査が行われ、各エージェントは制限されたコンテキスト内で1つのシャードを推論します。その後、リデューサーが結果の重複を排除し、シャード間で推論を行って、単一のワーカーでは見つけられない脆弱性チェーンを組み立てます。例えば、認証されていないID漏洩とID制限付きRCEが組み合わさってP0のRCEになることがあります。深刻な発見はすべて、実行中のビルドに対してサンドボックス内で再現され、レポートはランタイムで検証された結果を反映します。

Devinは、実際の脆弱性を評価するためのデータセットを構築しました。Go、Rust、Python、Ruby、Java、C#、JavaScript、C、Swift、Dart、Elixirなど14言語にわたる50の脆弱性で構成され、RCE、SQLインジェクション、パストラバーサル、SSRF、認証バイパス、メモリ安全バグ、DoSなど様々な種類を含みます。これらの脆弱性はすべて、モデルの学習期限後に公開されたCVEから選ばれており、モデルがトレーニングデータから答えを知ることがないようにしています。

評価の結果、Security Swarmは50ケース中72%のケースで対象の脆弱性を発見し、これはテストしたすべてのツールの中で最高の再現率でした。また、そのコストは次善のツールの約3分の2と、経済性も優れています。厳格な評価基準(特定の脆弱性のみを正解とする)のため、実際には同じファイル内の別の本物のバグを発見しているケースもあり、再現率は下限と見なすことができます。

今後の展望として、Devinはデータセットを継続的に更新し、古いCVEがモデルの学習期限に入る前に新しい脆弱性と差し替える予定です。特に、デシリアライゼーション、競合状態、認可ロジック、単一のCWEにマッピングしにくいバグなど、実際のインシデントで一般的でありながら既存のベンチマークで過小評価されている脆弱性クラスに焦点を当てていきます。これにより、Security Swarmはその本来の使命である「未知の脆弱性の発見」を追求し続けます。