Devin安全蜂群:AI驅動的程式碼安全分析新正規化
Devin釋出Security Swarm,一種基於新型架構Agentic MapReduce的自動化安全分析工具。它模擬安全研究團隊的工作流程,在真實程式碼庫中並行掃描攻擊面並驗證漏洞,在測試中達到72%的召回率,成本僅為其他工具的約三分之二。
Devin今日宣佈推出Security Swarm,這是一款革命性的安全分析工具,利用名為Agentic MapReduce的新型架構,自動化地模擬安全研究團隊的工作流程。該工具能夠分析真實程式碼庫,對映攻擊面,並行展開調查,並將發現的結果整理成經過驗證的漏洞排名列表。
Security Swarm的核心創新在於其Agentic MapReduce架構。整個流程由一個規劃代理開始,它研究程式碼倉庫並編寫選擇器——針對該程式碼庫的確定性相關性測試,例如路由、認證邊界和反序列化接收點。這些選擇器對所有檔案執行,無需模型參與迴圈,因此不匹配的檔案在代理檢視之前就被丟棄,保證了覆蓋範圍。匹配的檔案被分批處理,交給子代理並行調查,每個子代理在一個受限上下文中推理一個分片。然後,一個還原器對結果進行去重,並跨分片進行推理,以組裝單個代理無法看到的漏洞鏈,例如一個未認證的ID洩露加上一個ID限制的RCE可能組合成一個P0級別的RCE。每個嚴重的發現還會在沙箱中針對執行中的構建進行復現,確保報告反映的是執行時驗證的結果。
為了驗證Security Swarm的有效性,Devin構建了一個包含50個真實漏洞的資料集,涵蓋Go、Rust、Python、Ruby、Java、C#、JavaScript、C、Swift、Dart和Elixir等14種程式語言,涉及多種漏洞型別,如RCE、SQL隱碼攻擊、路徑遍歷、SSRF、認證繞過、記憶體安全漏洞和拒絕服務。這些漏洞均來自真實的開源專案,且所有CVE都是在模型訓練截止日期後釋出的,確保模型必須透過推理而非記憶來發現漏洞。
在評估中,Security Swarm在50個案例中成功找出了目標漏洞的72%,是所有測試工具中召回率最高的。同時,其每次掃描的平均成本僅為次優方案的約三分之二,實現了檢測效果和經濟性的雙重優勢。值得注意的是,由於評估標準嚴格匹配特定漏洞,實際工具發現的真實漏洞數量可能更多——有時它找到了同一檔案中的其他真實漏洞,但因為不是目標漏洞而被記為失敗。
展望未來,Devin計劃持續更新資料集,隨著舊的CVE落入模型訓練截止日期之前,將替換為新的漏洞。團隊特別關注在現有基準測試中代表性不足但在實際事故中常見的漏洞型別,如反序列化、競態條件、授權邏輯和無法對映到單一CWE的缺陷。透過保持資料集的時效性,Security Swarm將繼續專注於其核心使命:發現那些尚未被知曉的漏洞。