神話之後的紅隊測試——Zico Kolter與Matt Fredrikson, Gray Swan
在本期節目中,Gray Swan聯合創始人Zico Kolter和Matt Fredrikson解釋了為什麼AI安全不僅僅是“帶AI的網絡安全”,為什麼代理引入了新的漏洞類型,以及為什麼下一次重大AI事件可能是一隻灰天鵝:不太可能,但在發生之前清晰可見。他們討論了提示注入、自動化紅隊測試、模型魯棒性、代理身份、以及新興的AI保險/合規體系。
近期,美國政府針對Mythos和Fable模型實施出口管制,使得提示注入和間接提示注入成為行業焦點。在AI Engineer World's Fair上,Gray Swan聯合創始人、OpenAI董事會成員Zico Kolter與CMU教授Matt Fredrikson深入剖析了AI安全的獨特性。他們指出,AI安全並非傳統網絡安全的簡單延伸,而是一個全新領域:AI系統具有自身固有的漏洞,容易被欺騙,且這些漏洞可能大規模關聯。
Gray Swan致力於通過自動化紅隊測試和社區協作來提升AI模型的安全性。其運營的Gray Swan Arena擁有超過1.5萬名社區成員,通過競賽方式發現模型漏洞。同時,公司訓練了一系列專門用於紅隊測試的模型,能夠在對話和代理場景中找到繞過安全策略的方法。例如,Shade模型在針對Claude等編碼代理的測試中,已能發現人類難以察覺的間接提示注入攻擊。
Kolter和Fredrikson強調,前沿模型並不會隨着規模擴大而自動變得更安全。相反,由於它們被廣泛部署,一旦出現漏洞便可能造成連鎖效應。他們提出了“致命三要素”:不可信數據、私人數據和外泄通道,當這三者結合時,AI代理極易被劫持。他們認為,第一次重大AI提示注入泄密事件幾乎不可避免,而安全最終將成為企業保險和合規的必要組成部分。
展望未來,AI安全可能需要依賴AI系統之間的相互攻擊、防禦和解釋。OpenClaw等計算機使用代理的出現將安全挑戰推向新高度——代理的身份管理、權限控制和企業部署策略亟待重新設計。Gray Swan的Cygnal防護模型已開始為代理提供政策執行層保障。最終,AI安全會像當年的網絡安全一樣,形成一個獨立的保險與合規產業。