2026-06-03 00:37 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Mythos和GPT-5.5会发现大量漏洞。但这够了吗？

前沿AI模型如Mythos和GPT-5.5能发现真实漏洞，但企业级进攻性安全需要更多：覆盖范围、验证、安全性、治理和运营集成。本文探讨了如何将AI能力转化为可靠的安全系统。

2026年6月2日

前沿AI模型如Mythos和GPT-5.5能够发现真实漏洞，但企业级进攻性安全需要的远不止查找漏洞。XBOW在早期访问这些模型时进行的测试表明，它们可以有效地在源代码中发现漏洞。然而，攻击者只需找到一个入口，而防御者则需要理解整个攻击面、识别尽可能多的可行路径、验证真实性，并确保测试本身不会引发新事故。

使用LLM查找漏洞很简单，但将其转化为可靠、安全、可重复的企业级系统则很复杂。在构建进攻性安全解决方案时，有几个问题值得提前思考：覆盖范围、安全性、验证、模型策略和企业就绪性。

覆盖范围的信心 渗透测试因信任而成为黄金标准。人类测试者会运用技能、逻辑和经验探索攻击面，在受阻时转向新路径。LLM不会提供类似的全面信心，因为它们不是天然的持久型——它们倾向于快速满足，一旦发现一个结果就可能停止搜索，忽略相邻表面。人类测试者会在明显路径耗尽后继续推进。AI系统需要这样的纪律，否则会带来虚假的安全感。

需要追问：系统如何知道攻击面？如何决定哪些区域需要深入调查？如何避免重复测试同一表面？如何判断覆盖充分性？如何处理需要跨认证状态、角色、工作流或API的多步推理漏洞？

规模问题 在规模上，这是一个编排问题。单个长期运行的代理会积累假设、分心、过度重视早期观测，效率下降。代理舰队可以帮忙，但会带来重叠、重复和浪费。XBOW的方法是在协调代理下编排许多短生命周期的专门代理，协调代理跟踪攻击面、分配优先级并决定投入力度。

验证发现 LLM擅长说服但可能出错。企业级系统需要在模型叙述之外进行验证。XBOW使用验证代理，通过受控的、生产安全的挑战来确认漏洞是否真正可利用。大多数检查是确定性的，消除了幻觉；对于复杂业务逻辑漏洞，则对照生成的威胁模型进行验证。

安全测试 AI代理可能坚定地执行任务，即使导致损害。必须防止AI驱动的安全解决方案伤害目标。XBOW设置了多层护栏：谨慎的命令（例如测试SQLi时使用sleep命令而非下载数据）、守护模型（每一步判断是否安全）、健康检查（持续观察目标系统状态，出现压力信号时后退）。

数据保护 安全测试生成最敏感的数据。需要询问：数据是否发送给第三方提供商？是否被保留？能否自托管或单租户？能否自带密钥或模型？日志和跟踪是否安全存储？敏感证据能否在不损失可复现性的情况下编辑？

组织集成 发现漏洞只是第一步。需要分类、分配、复现、修复、验证修复并衡量风险下降。企业安全程序需要发现融入现有工作流：工单系统、漏洞管理、SIEM、CI/CD、开发者工具、证据存储和合规流程。能否自动路由？创建带有证据和复现步骤的工单？跨测试去重？重新测试修复？处理认证、角色、会话和真实工作流？生成审计跟踪？

人员与预算 AI渗透测试解决方案涉及人员配备和代币成本。谁将拥有该解决方案？模型变更时如何更新？模型成本很高，即使下降，低效的代理行为也会造成不必要的支出。如何确保代币使用高效？

总之，AI模型在许多进攻性安全任务中表现出色，但需要在规划、覆盖、安全、验证、可重复性和企业集成方面加以结构。这是有前景的原型与组织可依赖的进攻性安全系统之间的区别。欲了解更多XBOW如何将前沿模型能力转化为受治理的、经过验证的进攻性安全执行，请参阅我们的新白皮书。