2026-06-23 05:06 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-23 09:43 UTC+8

神話之後的紅隊測試——Zico Kolter與Matt Fredrikson, Gray Swan

在本期節目中，Gray Swan聯合創始人Zico Kolter和Matt Fredrikson解釋了為什麼AI安全不僅僅是“帶AI的網絡安全”，為什麼代理引入了新的漏洞類型，以及為什麼下一次重大AI事件可能是一隻灰天鵝：不太可能，但在發生之前清晰可見。他們討論了提示注入、自動化紅隊測試、模型魯棒性、代理身份、以及新興的AI保險/合規體系。

來源Latent Space

近期，美國政府針對Mythos和Fable模型實施出口管制，使得提示注入和間接提示注入成為行業焦點。在AI Engineer World's Fair上，Gray Swan聯合創始人、OpenAI董事會成員Zico Kolter與CMU教授Matt Fredrikson深入剖析了AI安全的獨特性。他們指出，AI安全並非傳統網絡安全的簡單延伸，而是一個全新領域：AI系統具有自身固有的漏洞，容易被欺騙，且這些漏洞可能大規模關聯。

Gray Swan致力於通過自動化紅隊測試和社區協作來提升AI模型的安全性。其運營的Gray Swan Arena擁有超過1.5萬名社區成員，通過競賽方式發現模型漏洞。同時，公司訓練了一系列專門用於紅隊測試的模型，能夠在對話和代理場景中找到繞過安全策略的方法。例如，Shade模型在針對Claude等編碼代理的測試中，已能發現人類難以察覺的間接提示注入攻擊。

Kolter和Fredrikson強調，前沿模型並不會隨着規模擴大而自動變得更安全。相反，由於它們被廣泛部署，一旦出現漏洞便可能造成連鎖效應。他們提出了“致命三要素”：不可信數據、私人數據和外泄通道，當這三者結合時，AI代理極易被劫持。他們認為，第一次重大AI提示注入泄密事件幾乎不可避免，而安全最終將成為企業保險和合規的必要組成部分。

展望未來，AI安全可能需要依賴AI系統之間的相互攻擊、防禦和解釋。OpenClaw等計算機使用代理的出現將安全挑戰推向新高度——代理的身份管理、權限控制和企業部署策略亟待重新設計。Gray Swan的Cygnal防護模型已開始為代理提供政策執行層保障。最終，AI安全會像當年的網絡安全一樣，形成一個獨立的保險與合規產業。