2026-06-03 00:37 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Mythos和GPT-5.5會發現大量漏洞。但這夠了嗎？

前沿AI模型如Mythos和GPT-5.5能發現真實漏洞，但企業級進攻性安全需要更多：覆蓋範圍、驗證、安全性、治理和運營整合。本文探討了如何將AI能力轉化為可靠的安全系統。

2026年6月2日

前沿AI模型如Mythos和GPT-5.5能夠發現真實漏洞，但企業級進攻性安全需要的遠不止查詢漏洞。XBOW在早期訪問這些模型時進行的測試表明，它們可以有效地在原始碼中發現漏洞。然而，攻擊者只需找到一個入口，而防禦者則需要理解整個攻擊面、識別儘可能多的可行路徑、驗證真實性，並確保測試本身不會引發新事故。

使用LLM查詢漏洞很簡單，但將其轉化為可靠、安全、可重複的企業級系統則很複雜。在構建進攻性安全解決方案時，有幾個問題值得提前思考：覆蓋範圍、安全性、驗證、模型策略和企業就緒性。

覆蓋範圍的信心 滲透測試因信任而成為黃金標準。人類測試者會運用技能、邏輯和經驗探索攻擊面，在受阻時轉向新路徑。LLM不會提供類似的全面信心，因為它們不是天然的持久型——它們傾向於快速滿足，一旦發現一個結果就可能停止搜尋，忽略相鄰表面。人類測試者會在明顯路徑耗盡後繼續推進。AI系統需要這樣的紀律，否則會帶來虛假的安全感。

需要追問：系統如何知道攻擊面？如何決定哪些區域需要深入調查？如何避免重複測試同一表面？如何判斷覆蓋充分性？如何處理需要跨認證狀態、角色、工作流或API的多步推理漏洞？

規模問題 在規模上，這是一個編排問題。單個長期執行的代理會積累假設、分心、過度重視早期觀測，效率下降。代理艦隊可以幫忙，但會帶來重疊、重複和浪費。XBOW的方法是在協調代理下編排許多短生命週期的專門代理，協調代理跟蹤攻擊面、分配優先順序並決定投入力度。

驗證發現 LLM擅長說服但可能出錯。企業級系統需要在模型敘述之外進行驗證。XBOW使用驗證代理，透過受控的、生產安全的挑戰來確認漏洞是否真正可利用。大多數檢查是確定性的，消除了幻覺；對於複雜業務邏輯漏洞，則對照生成的威脅模型進行驗證。

安全測試 AI代理可能堅定地執行任務，即使導致損害。必須防止AI驅動的安全解決方案傷害目標。XBOW設定了多層護欄：謹慎的命令（例如測試SQLi時使用sleep命令而非下載資料）、守護模型（每一步判斷是否安全）、健康檢查（持續觀察目標系統狀態，出現壓力訊號時後退）。

資料保護 安全測試生成最敏感的資料。需要詢問：資料是否傳送給第三方提供商？是否被保留？能否自託管或單租戶？能否自帶金鑰或模型？日誌和跟蹤是否安全儲存？敏感證據能否在不損失可復現性的情況下編輯？

組織整合 發現漏洞只是第一步。需要分類、分配、復現、修復、驗證修復並衡量風險下降。企業安全程式需要發現融入現有工作流：工單系統、漏洞管理、SIEM、CI/CD、開發者工具、證據儲存和合規流程。能否自動路由？建立帶有證據和復現步驟的工單？跨測試去重？重新測試修復？處理認證、角色、會話和真實工作流？生成審計跟蹤？

人員與預算 AI滲透測試解決方案涉及人員配備和代幣成本。誰將擁有該解決方案？模型變更時如何更新？模型成本很高，即使下降，低效的代理行為也會造成不必要的支出。如何確保代幣使用高效？

總之，AI模型在許多進攻性安全任務中表現出色，但需要在規劃、覆蓋、安全、驗證、可重複性和企業整合方面加以結構。這是有前景的原型與組織可依賴的進攻性安全系統之間的區別。欲瞭解更多XBOW如何將前沿模型能力轉化為受治理的、經過驗證的進攻性安全執行，請參閱我們的新白皮書。