2026-06-23 05:06 UTC+8站内改写1 分钟阅读更新: 2026-06-23 09:43 UTC+8

神话之后的红队测试——Zico Kolter与Matt Fredrikson, Gray Swan

在本期节目中，Gray Swan联合创始人Zico Kolter和Matt Fredrikson解释了为什么AI安全不仅仅是“带AI的网络安全”，为什么代理引入了新的漏洞类型，以及为什么下一次重大AI事件可能是一只灰天鹅：不太可能，但在发生之前清晰可见。他们讨论了提示注入、自动化红队测试、模型鲁棒性、代理身份、以及新兴的AI保险/合规体系。

来源Latent Space

近期，美国政府针对Mythos和Fable模型实施出口管制，使得提示注入和间接提示注入成为行业焦点。在AI Engineer World's Fair上，Gray Swan联合创始人、OpenAI董事会成员Zico Kolter与CMU教授Matt Fredrikson深入剖析了AI安全的独特性。他们指出，AI安全并非传统网络安全的简单延伸，而是一个全新领域：AI系统具有自身固有的漏洞，容易被欺骗，且这些漏洞可能大规模关联。

Gray Swan致力于通过自动化红队测试和社区协作来提升AI模型的安全性。其运营的Gray Swan Arena拥有超过1.5万名社区成员，通过竞赛方式发现模型漏洞。同时，公司训练了一系列专门用于红队测试的模型，能够在对话和代理场景中找到绕过安全策略的方法。例如，Shade模型在针对Claude等编码代理的测试中，已能发现人类难以察觉的间接提示注入攻击。

Kolter和Fredrikson强调，前沿模型并不会随着规模扩大而自动变得更安全。相反，由于它们被广泛部署，一旦出现漏洞便可能造成连锁效应。他们提出了“致命三要素”：不可信数据、私人数据和外泄通道，当这三者结合时，AI代理极易被劫持。他们认为，第一次重大AI提示注入泄密事件几乎不可避免，而安全最终将成为企业保险和合规的必要组成部分。

展望未来，AI安全可能需要依赖AI系统之间的相互攻击、防御和解释。OpenClaw等计算机使用代理的出现将安全挑战推向新高度——代理的身份管理、权限控制和企业部署策略亟待重新设计。Gray Swan的Cygnal防护模型已开始为代理提供政策执行层保障。最终，AI安全会像当年的网络安全一样，形成一个独立的保险与合规产业。