Mythos 事件證明:AI 安全不能再依賴模型內部
Mythos 5 模型的發佈、防護與最終下架過程表明,AI 系統的安全邊界已經轉移到模型外部。Anthropic 通過訪問白名單、請求路由器和出口管制來保護其最強大模型,但內部拒絕訓練卻被一個簡單的提示詞繞過。這標誌着從模型安全向執行安全的轉變,即通過操作系統層級的控制來約束模型的行為,而非信任模型本身的訓練。
本週,美國政府對 Anthropic 下令,要求其暫停兩款最先進模型——Fable 5 和 Mythos 5 的全球訪問,原因是該模型被成功越獄。這一事件撕開了 AI 安全領域一個長期存在的假設:安全是否真的能通過模型內部的訓練來實現?
Mythos 5 是 Anthropic 宣稱“當前最具網絡安全能力”的模型。它能夠識別並利用主要操作系統和瀏覽器的漏洞。然而,它的發佈方式揭示了真正的安全機制:僅限約 50 個經過篩選的組織(如 Project Glasswing)使用,後期擴展至約 150 家。這種訪問門控是環境控制,完全存在於模型權重之外。
對於公眾版本 Fable 5,Anthropic 引入了一個路由器,將涉及網絡安全、生物學、化學和模型蒸餾的請求悄悄轉移至較弱的模型。這意味着,判斷請求是否安全發生在模型之外,而非依賴模型自身的判斷。當這些措施仍顯不足時,美國法律直接下令撤下模型——這是最外部的邊界。
然而,觸發整個事件的越獄技術並不複雜:一家公司簡單地要求模型“讀取某個代碼庫並識別軟件缺陷”。這個看似普通的代碼審查請求徑直繞過了訓練好的防護欄,使模型變成了漏洞發現引擎。Anthropic 辯稱越獄範圍狹窄且非通用,但這一辯解恰好承認了更大問題:如果花費數千小時進行紅隊測試、限制於少數組織後,一個自然語言提示仍能誘出模型被訓練拒絕的行為,那麼“訓練拒絕”不等於安全邊界——它只是一個偏好,一個足夠強大的模型可以被任何巧言誘導而放棄的偏好。
這一模式在系統安全史上屢見不鮮。早期操作系統信任應用程序,現代操作系統則通過進程隔離、權限和系統調用中介來隔離應用。瀏覽器從信任網站轉變為沙盒每個標籤頁。雲平台從信任工作負載轉向容器、VM 和策略引擎。每一次,當能力跨越某個閾值,信任就從執行者轉移到架構本身。
AI 正在重走這條路。Mythos 事件標誌着這一閾值的跨越。從此,安全問題的核心不再是“模型能否產生有害輸出”,而是“模型被允許做什麼?”這被稱為“執行安全”:它不依賴於模型的可靠性,而是假設模型能力強大且可能出錯,然後通過系統約束限制其行為。執行安全與模型無關:無論模型是 Claude、GPT 還是開權重模型,它只評估動作本身。
對於未來而言,開放權重模型將使訪問控制(如項目白名單)失效。一旦 Mythos 級能力可供任何人下載,唯一的問題就是:在這個環境中,一個強大且不可信的模型實際上能做什麼?答案在於模型周圍的層級,而非其來源。
grith 正是基於這一原則構建。它在操作系統系統調用層攔截模型的每個動作——每次文件讀取、網絡連接、進程生成——並通過多過濾器安全代理評分,在准許執行前評估。模型提出建議,代理決定是否執行。模型的訓練、對齊或信心與決策無關。即使模型被越獄,它仍然需要執行系統調用來實現意圖,而這些正是 grith 可以阻止的。這種邊界位於系統調用層,而非特定模型權重內,因此與模型無關:無論是 grith 自己的內置代理還是 Claude Code、Codex 等外部工具,grith 都能同等監督。
Mythos 事件的持久意義不在於模型的能力,而在於事件揭示的必然性:對於強大系統,我們已經在保護環境而非信任模型,只是目前使用的工具(出口管制、白名單、回退路由器)還很粗糙。精確的工具——沙盒、能力中介、策略引擎、審計跟蹤——需要被構建到真正重要的地方,即模型與系統交互的接口。這才是 AI 安全的未來。