AI News HubLIVE
站内改写2 分钟阅读

Devin安全蜂群:AI驱动的代码安全分析新范式

Devin发布Security Swarm,一种基于新型架构Agentic MapReduce的自动化安全分析工具。它模拟安全研究团队的工作流程,在真实代码库中并行扫描攻击面并验证漏洞,在测试中达到72%的召回率,成本仅为其他工具的约三分之二。

来源Hacker News AI作者: meco

Devin今日宣布推出Security Swarm,这是一款革命性的安全分析工具,利用名为Agentic MapReduce的新型架构,自动化地模拟安全研究团队的工作流程。该工具能够分析真实代码库,映射攻击面,并行展开调查,并将发现的结果整理成经过验证的漏洞排名列表。

Security Swarm的核心创新在于其Agentic MapReduce架构。整个流程由一个规划代理开始,它研究代码仓库并编写选择器——针对该代码库的确定性相关性测试,例如路由、认证边界和反序列化接收点。这些选择器对所有文件运行,无需模型参与循环,因此不匹配的文件在代理查看之前就被丢弃,保证了覆盖范围。匹配的文件被分批处理,交给子代理并行调查,每个子代理在一个受限上下文中推理一个分片。然后,一个还原器对结果进行去重,并跨分片进行推理,以组装单个代理无法看到的漏洞链,例如一个未认证的ID泄露加上一个ID限制的RCE可能组合成一个P0级别的RCE。每个严重的发现还会在沙箱中针对运行中的构建进行复现,确保报告反映的是运行时验证的结果。

为了验证Security Swarm的有效性,Devin构建了一个包含50个真实漏洞的数据集,涵盖Go、Rust、Python、Ruby、Java、C#、JavaScript、C、Swift、Dart和Elixir等14种编程语言,涉及多种漏洞类型,如RCE、SQL注入、路径遍历、SSRF、认证绕过、内存安全漏洞和拒绝服务。这些漏洞均来自真实的开源项目,且所有CVE都是在模型训练截止日期后发布的,确保模型必须通过推理而非记忆来发现漏洞。

在评估中,Security Swarm在50个案例中成功找出了目标漏洞的72%,是所有测试工具中召回率最高的。同时,其每次扫描的平均成本仅为次优方案的约三分之二,实现了检测效果和经济性的双重优势。值得注意的是,由于评估标准严格匹配特定漏洞,实际工具发现的真实漏洞数量可能更多——有时它找到了同一文件中的其他真实漏洞,但因为不是目标漏洞而被记为失败。

展望未来,Devin计划持续更新数据集,随着旧的CVE落入模型训练截止日期之前,将替换为新的漏洞。团队特别关注在现有基准测试中代表性不足但在实际事故中常见的漏洞类型,如反序列化、竞态条件、授权逻辑和无法映射到单一CWE的缺陷。通过保持数据集的时效性,Security Swarm将继续专注于其核心使命:发现那些尚未被知晓的漏洞。