Mythos和GPT-5.5会发现大量漏洞。但这够了吗?
前沿AI模型如Mythos和GPT-5.5能发现真实漏洞,但企业级进攻性安全需要更多:覆盖范围、验证、安全性、治理和运营集成。本文探讨了如何将AI能力转化为可靠的安全系统。
2026年6月2日
前沿AI模型如Mythos和GPT-5.5能够发现真实漏洞,但企业级进攻性安全需要的远不止查找漏洞。XBOW在早期访问这些模型时进行的测试表明,它们可以有效地在源代码中发现漏洞。然而,攻击者只需找到一个入口,而防御者则需要理解整个攻击面、识别尽可能多的可行路径、验证真实性,并确保测试本身不会引发新事故。
使用LLM查找漏洞很简单,但将其转化为可靠、安全、可重复的企业级系统则很复杂。在构建进攻性安全解决方案时,有几个问题值得提前思考:覆盖范围、安全性、验证、模型策略和企业就绪性。
覆盖范围的信心 渗透测试因信任而成为黄金标准。人类测试者会运用技能、逻辑和经验探索攻击面,在受阻时转向新路径。LLM不会提供类似的全面信心,因为它们不是天然的持久型——它们倾向于快速满足,一旦发现一个结果就可能停止搜索,忽略相邻表面。人类测试者会在明显路径耗尽后继续推进。AI系统需要这样的纪律,否则会带来虚假的安全感。
需要追问:系统如何知道攻击面?如何决定哪些区域需要深入调查?如何避免重复测试同一表面?如何判断覆盖充分性?如何处理需要跨认证状态、角色、工作流或API的多步推理漏洞?
规模问题 在规模上,这是一个编排问题。单个长期运行的代理会积累假设、分心、过度重视早期观测,效率下降。代理舰队可以帮忙,但会带来重叠、重复和浪费。XBOW的方法是在协调代理下编排许多短生命周期的专门代理,协调代理跟踪攻击面、分配优先级并决定投入力度。
验证发现 LLM擅长说服但可能出错。企业级系统需要在模型叙述之外进行验证。XBOW使用验证代理,通过受控的、生产安全的挑战来确认漏洞是否真正可利用。大多数检查是确定性的,消除了幻觉;对于复杂业务逻辑漏洞,则对照生成的威胁模型进行验证。
安全测试 AI代理可能坚定地执行任务,即使导致损害。必须防止AI驱动的安全解决方案伤害目标。XBOW设置了多层护栏:谨慎的命令(例如测试SQLi时使用sleep命令而非下载数据)、守护模型(每一步判断是否安全)、健康检查(持续观察目标系统状态,出现压力信号时后退)。
数据保护 安全测试生成最敏感的数据。需要询问:数据是否发送给第三方提供商?是否被保留?能否自托管或单租户?能否自带密钥或模型?日志和跟踪是否安全存储?敏感证据能否在不损失可复现性的情况下编辑?
组织集成 发现漏洞只是第一步。需要分类、分配、复现、修复、验证修复并衡量风险下降。企业安全程序需要发现融入现有工作流:工单系统、漏洞管理、SIEM、CI/CD、开发者工具、证据存储和合规流程。能否自动路由?创建带有证据和复现步骤的工单?跨测试去重?重新测试修复?处理认证、角色、会话和真实工作流?生成审计跟踪?
人员与预算 AI渗透测试解决方案涉及人员配备和代币成本。谁将拥有该解决方案?模型变更时如何更新?模型成本很高,即使下降,低效的代理行为也会造成不必要的支出。如何确保代币使用高效?
总之,AI模型在许多进攻性安全任务中表现出色,但需要在规划、覆盖、安全、验证、可重复性和企业集成方面加以结构。这是有前景的原型与组织可依赖的进攻性安全系统之间的区别。欲了解更多XBOW如何将前沿模型能力转化为受治理的、经过验证的进攻性安全执行,请参阅我们的新白皮书。