神话之后的红队测试——Zico Kolter与Matt Fredrikson, Gray Swan
在本期节目中,Gray Swan联合创始人Zico Kolter和Matt Fredrikson解释了为什么AI安全不仅仅是“带AI的网络安全”,为什么代理引入了新的漏洞类型,以及为什么下一次重大AI事件可能是一只灰天鹅:不太可能,但在发生之前清晰可见。他们讨论了提示注入、自动化红队测试、模型鲁棒性、代理身份、以及新兴的AI保险/合规体系。
近期,美国政府针对Mythos和Fable模型实施出口管制,使得提示注入和间接提示注入成为行业焦点。在AI Engineer World's Fair上,Gray Swan联合创始人、OpenAI董事会成员Zico Kolter与CMU教授Matt Fredrikson深入剖析了AI安全的独特性。他们指出,AI安全并非传统网络安全的简单延伸,而是一个全新领域:AI系统具有自身固有的漏洞,容易被欺骗,且这些漏洞可能大规模关联。
Gray Swan致力于通过自动化红队测试和社区协作来提升AI模型的安全性。其运营的Gray Swan Arena拥有超过1.5万名社区成员,通过竞赛方式发现模型漏洞。同时,公司训练了一系列专门用于红队测试的模型,能够在对话和代理场景中找到绕过安全策略的方法。例如,Shade模型在针对Claude等编码代理的测试中,已能发现人类难以察觉的间接提示注入攻击。
Kolter和Fredrikson强调,前沿模型并不会随着规模扩大而自动变得更安全。相反,由于它们被广泛部署,一旦出现漏洞便可能造成连锁效应。他们提出了“致命三要素”:不可信数据、私人数据和外泄通道,当这三者结合时,AI代理极易被劫持。他们认为,第一次重大AI提示注入泄密事件几乎不可避免,而安全最终将成为企业保险和合规的必要组成部分。
展望未来,AI安全可能需要依赖AI系统之间的相互攻击、防御和解释。OpenClaw等计算机使用代理的出现将安全挑战推向新高度——代理的身份管理、权限控制和企业部署策略亟待重新设计。Gray Swan的Cygnal防护模型已开始为代理提供政策执行层保障。最终,AI安全会像当年的网络安全一样,形成一个独立的保险与合规产业。