Devin安全蜂羣:AI驅動的代碼安全分析新範式
Devin發佈Security Swarm,一種基於新型架構Agentic MapReduce的自動化安全分析工具。它模擬安全研究團隊的工作流程,在真實代碼庫中並行掃描攻擊面並驗證漏洞,在測試中達到72%的召回率,成本僅為其他工具的約三分之二。
Devin今日宣佈推出Security Swarm,這是一款革命性的安全分析工具,利用名為Agentic MapReduce的新型架構,自動化地模擬安全研究團隊的工作流程。該工具能夠分析真實代碼庫,映射攻擊面,並行展開調查,並將發現的結果整理成經過驗證的漏洞排名列表。
Security Swarm的核心創新在於其Agentic MapReduce架構。整個流程由一個規劃代理開始,它研究代碼倉庫並編寫選擇器——針對該代碼庫的確定性相關性測試,例如路由、認證邊界和反序列化接收點。這些選擇器對所有文件運行,無需模型參與循環,因此不匹配的文件在代理查看之前就被丟棄,保證了覆蓋範圍。匹配的文件被分批處理,交給子代理並行調查,每個子代理在一個受限上下文中推理一個分片。然後,一個還原器對結果進行去重,並跨分片進行推理,以組裝單個代理無法看到的漏洞鏈,例如一個未認證的ID泄露加上一個ID限制的RCE可能組合成一個P0級別的RCE。每個嚴重的發現還會在沙箱中針對運行中的構建進行復現,確保報告反映的是運行時驗證的結果。
為了驗證Security Swarm的有效性,Devin構建了一個包含50個真實漏洞的數據集,涵蓋Go、Rust、Python、Ruby、Java、C#、JavaScript、C、Swift、Dart和Elixir等14種編程語言,涉及多種漏洞類型,如RCE、SQL注入、路徑遍歷、SSRF、認證繞過、內存安全漏洞和拒絕服務。這些漏洞均來自真實的開源項目,且所有CVE都是在模型訓練截止日期後發佈的,確保模型必須通過推理而非記憶來發現漏洞。
在評估中,Security Swarm在50個案例中成功找出了目標漏洞的72%,是所有測試工具中召回率最高的。同時,其每次掃描的平均成本僅為次優方案的約三分之二,實現了檢測效果和經濟性的雙重優勢。值得注意的是,由於評估標準嚴格匹配特定漏洞,實際工具發現的真實漏洞數量可能更多——有時它找到了同一文件中的其他真實漏洞,但因為不是目標漏洞而被記為失敗。
展望未來,Devin計劃持續更新數據集,隨着舊的CVE落入模型訓練截止日期之前,將替換為新的漏洞。團隊特別關注在現有基準測試中代表性不足但在實際事故中常見的漏洞類型,如反序列化、競態條件、授權邏輯和無法映射到單一CWE的缺陷。通過保持數據集的時效性,Security Swarm將繼續專注於其核心使命:發現那些尚未被知曉的漏洞。