Mythos和GPT-5.5會發現大量漏洞。但這夠了嗎?
前沿AI模型如Mythos和GPT-5.5能發現真實漏洞,但企業級進攻性安全需要更多:覆蓋範圍、驗證、安全性、治理和運營整合。本文探討了如何將AI能力轉化為可靠的安全系統。
2026年6月2日
前沿AI模型如Mythos和GPT-5.5能夠發現真實漏洞,但企業級進攻性安全需要的遠不止查詢漏洞。XBOW在早期訪問這些模型時進行的測試表明,它們可以有效地在原始碼中發現漏洞。然而,攻擊者只需找到一個入口,而防禦者則需要理解整個攻擊面、識別儘可能多的可行路徑、驗證真實性,並確保測試本身不會引發新事故。
使用LLM查詢漏洞很簡單,但將其轉化為可靠、安全、可重複的企業級系統則很複雜。在構建進攻性安全解決方案時,有幾個問題值得提前思考:覆蓋範圍、安全性、驗證、模型策略和企業就緒性。
覆蓋範圍的信心 滲透測試因信任而成為黃金標準。人類測試者會運用技能、邏輯和經驗探索攻擊面,在受阻時轉向新路徑。LLM不會提供類似的全面信心,因為它們不是天然的持久型——它們傾向於快速滿足,一旦發現一個結果就可能停止搜尋,忽略相鄰表面。人類測試者會在明顯路徑耗盡後繼續推進。AI系統需要這樣的紀律,否則會帶來虛假的安全感。
需要追問:系統如何知道攻擊面?如何決定哪些區域需要深入調查?如何避免重複測試同一表面?如何判斷覆蓋充分性?如何處理需要跨認證狀態、角色、工作流或API的多步推理漏洞?
規模問題 在規模上,這是一個編排問題。單個長期執行的代理會積累假設、分心、過度重視早期觀測,效率下降。代理艦隊可以幫忙,但會帶來重疊、重複和浪費。XBOW的方法是在協調代理下編排許多短生命週期的專門代理,協調代理跟蹤攻擊面、分配優先順序並決定投入力度。
驗證發現 LLM擅長說服但可能出錯。企業級系統需要在模型敘述之外進行驗證。XBOW使用驗證代理,透過受控的、生產安全的挑戰來確認漏洞是否真正可利用。大多數檢查是確定性的,消除了幻覺;對於複雜業務邏輯漏洞,則對照生成的威脅模型進行驗證。
安全測試 AI代理可能堅定地執行任務,即使導致損害。必須防止AI驅動的安全解決方案傷害目標。XBOW設定了多層護欄:謹慎的命令(例如測試SQLi時使用sleep命令而非下載資料)、守護模型(每一步判斷是否安全)、健康檢查(持續觀察目標系統狀態,出現壓力訊號時後退)。
資料保護 安全測試生成最敏感的資料。需要詢問:資料是否傳送給第三方提供商?是否被保留?能否自託管或單租戶?能否自帶金鑰或模型?日誌和跟蹤是否安全儲存?敏感證據能否在不損失可復現性的情況下編輯?
組織整合 發現漏洞只是第一步。需要分類、分配、復現、修復、驗證修復並衡量風險下降。企業安全程式需要發現融入現有工作流:工單系統、漏洞管理、SIEM、CI/CD、開發者工具、證據儲存和合規流程。能否自動路由?建立帶有證據和復現步驟的工單?跨測試去重?重新測試修復?處理認證、角色、會話和真實工作流?生成審計跟蹤?
人員與預算 AI滲透測試解決方案涉及人員配備和代幣成本。誰將擁有該解決方案?模型變更時如何更新?模型成本很高,即使下降,低效的代理行為也會造成不必要的支出。如何確保代幣使用高效?
總之,AI模型在許多進攻性安全任務中表現出色,但需要在規劃、覆蓋、安全、驗證、可重複性和企業整合方面加以結構。這是有前景的原型與組織可依賴的進攻性安全系統之間的區別。欲瞭解更多XBOW如何將前沿模型能力轉化為受治理的、經過驗證的進攻性安全執行,請參閱我們的新白皮書。