2026-06-13站内改写2 分鐘閱讀更新: 2026-06-13

Mythos 事件證明：AI 安全不能再依賴模型內部

Mythos 5 模型的發佈、防護與最終下架過程表明，AI 系統的安全邊界已經轉移到模型外部。Anthropic 通過訪問白名單、請求路由器和出口管制來保護其最強大模型，但內部拒絕訓練卻被一個簡單的提示詞繞過。這標誌着從模型安全向執行安全的轉變，即通過操作系統層級的控制來約束模型的行為，而非信任模型本身的訓練。

來源Hacker News AI作者: edf13

本週，美國政府對 Anthropic 下令，要求其暫停兩款最先進模型——Fable 5 和 Mythos 5 的全球訪問，原因是該模型被成功越獄。這一事件撕開了 AI 安全領域一個長期存在的假設：安全是否真的能通過模型內部的訓練來實現？

Mythos 5 是 Anthropic 宣稱“當前最具網絡安全能力”的模型。它能夠識別並利用主要操作系統和瀏覽器的漏洞。然而，它的發佈方式揭示了真正的安全機制：僅限約 50 個經過篩選的組織（如 Project Glasswing）使用，後期擴展至約 150 家。這種訪問門控是環境控制，完全存在於模型權重之外。

對於公眾版本 Fable 5，Anthropic 引入了一個路由器，將涉及網絡安全、生物學、化學和模型蒸餾的請求悄悄轉移至較弱的模型。這意味着，判斷請求是否安全發生在模型之外，而非依賴模型自身的判斷。當這些措施仍顯不足時，美國法律直接下令撤下模型——這是最外部的邊界。

然而，觸發整個事件的越獄技術並不複雜：一家公司簡單地要求模型“讀取某個代碼庫並識別軟件缺陷”。這個看似普通的代碼審查請求徑直繞過了訓練好的防護欄，使模型變成了漏洞發現引擎。Anthropic 辯稱越獄範圍狹窄且非通用，但這一辯解恰好承認了更大問題：如果花費數千小時進行紅隊測試、限制於少數組織後，一個自然語言提示仍能誘出模型被訓練拒絕的行為，那麼“訓練拒絕”不等於安全邊界——它只是一個偏好，一個足夠強大的模型可以被任何巧言誘導而放棄的偏好。

這一模式在系統安全史上屢見不鮮。早期操作系統信任應用程序，現代操作系統則通過進程隔離、權限和系統調用中介來隔離應用。瀏覽器從信任網站轉變為沙盒每個標籤頁。雲平台從信任工作負載轉向容器、VM 和策略引擎。每一次，當能力跨越某個閾值，信任就從執行者轉移到架構本身。

AI 正在重走這條路。Mythos 事件標誌着這一閾值的跨越。從此，安全問題的核心不再是“模型能否產生有害輸出”，而是“模型被允許做什麼？”這被稱為“執行安全”：它不依賴於模型的可靠性，而是假設模型能力強大且可能出錯，然後通過系統約束限制其行為。執行安全與模型無關：無論模型是 Claude、GPT 還是開權重模型，它只評估動作本身。

對於未來而言，開放權重模型將使訪問控制（如項目白名單）失效。一旦 Mythos 級能力可供任何人下載，唯一的問題就是：在這個環境中，一個強大且不可信的模型實際上能做什麼？答案在於模型周圍的層級，而非其來源。

grith 正是基於這一原則構建。它在操作系統系統調用層攔截模型的每個動作——每次文件讀取、網絡連接、進程生成——並通過多過濾器安全代理評分，在准許執行前評估。模型提出建議，代理決定是否執行。模型的訓練、對齊或信心與決策無關。即使模型被越獄，它仍然需要執行系統調用來實現意圖，而這些正是 grith 可以阻止的。這種邊界位於系統調用層，而非特定模型權重內，因此與模型無關：無論是 grith 自己的內置代理還是 Claude Code、Codex 等外部工具，grith 都能同等監督。

Mythos 事件的持久意義不在於模型的能力，而在於事件揭示的必然性：對於強大系統，我們已經在保護環境而非信任模型，只是目前使用的工具（出口管制、白名單、回退路由器）還很粗糙。精確的工具——沙盒、能力中介、策略引擎、審計跟蹤——需要被構建到真正重要的地方，即模型與系統交互的接口。這才是 AI 安全的未來。