2026-05-18 14:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Project Glasswing：Mythos 向我們展示了什麼

Cloudflare 在 Project Glasswing 下測試了 Anthropic 的 Mythos Preview 模型，發現其在漏洞鏈構建和利用證明生成方面有顯著進步，但也存在信號噪聲和有機拒絕問題。文章討論瞭如何通過構建 harness 來提高 AI 輔助漏洞研究的效率和可靠性。

來源Cloudflare AI Blog作者: Grant Bourzikas

在過去幾個月裏，Cloudflare 在其基礎設施上測試了一系列專注於安全的語言模型（LLM）。這些模型幫助識別潛在漏洞，同時也展示了攻擊者利用最新模型的能力。其中，Anthropic 的 Mythos Preview 引起了極大關注。作為 Project Glasswing 的一部分，Cloudflare 被邀請使用 Mythos Preview，並迅速將其應用於 50 多個倉庫，以觀察其實際表現。

Mythos Preview 的突破

Mythos Preview 在漏洞研究方面取得了真正的進步。與之前的通用前沿模型相比，它不僅是對舊有模型的改進，更是一種不同類型的工具，完成不同類型的工作。其兩個突出功能是：

漏洞鏈構建：真正的攻擊很少使用單個漏洞，而是將多個小的攻擊原語鏈接成一個有效的利用。Mythos Preview 能夠將這些原語組合起來，推理如何構建一個有效的概念驗證，其推理過程類似於高級研究人員的思考。
利用證明生成：發現漏洞和證明其可利用性是兩回事。Mythos Preview 可以編寫觸發疑似漏洞的代碼，在沙盒環境中編譯並運行，如果程序行為符合預期，即為證明；否則，模型會讀取失敗信息，調整假設並重試。這種循環使得推測性缺陷有了可靠的證明。

儘管其他前沿模型也能發現相同的基礎漏洞，但在將碎片拼接成完整利用鏈方面表現不足。Mythos Preview 能夠將低嚴重性漏洞（傳統上會積壓在待辦事項中）鏈接成更嚴重的利用。

有機拒絕與安全邊界

Project Glasswing 中使用的 Mythos Preview 模型沒有通用模型（如 Opus 4.7 或 GPT-5.5）中的額外安全措施。儘管如此，該模型會自然地對某些請求產生牴觸——類似於其用於漏洞狩獵的能力，模型自身具有新興的護欄，有時會拒絕合法的安全研究請求。然而，這些有機拒絕並不一致：相同的任務，以不同方式提出或在不同的上下文中呈現，可能產生完全不同的結果。例如，模型最初拒絕在某項目上進行漏洞研究，但在對項目環境進行無關更改後卻同意了。這種不一致性意味着，僅靠模型自身的護欄不足以構成完整的安全邊界，未來任何可用的前沿模型必須在基線行為之上增加額外的安全措施。

信號噪聲問題

對漏洞進行分類時，最大的困難之一就是判斷哪些漏洞是真實的、可被利用的、需要立即修復的。編程語言和模型偏差是噪聲的兩大來源。C 和 C++ 由於直接內存控制而更容易產生錯誤陽性，而模型在發現漏洞時往往會給出“可能”、“潛在”等模糊的發現，這些模糊發現的數量遠超可靠發現。這對於探索性工具來説是可以接受的，但對於分類隊列來説卻是災難性的，因為每個推測性發現都會消耗人力和令牌。Mythos Preview 在此方面有了明顯改進，尤其是其鏈式證明能力——帶有概念驗證的發現可以直接處理，大大減少了確認是否真實的時間。Cloudflare 的測試工具故意調高了誤報率以捕捉更多漏洞，但 Mythos Preview 的輸出質量明顯更高：模糊發現更少，重現步驟更清晰，決策時間更短。

為何通用編碼代理不適用

最初，Cloudflare 嘗試將通用編碼代理指向任意倉庫並請求發現漏洞。這種方法雖然能產生結果，但無法提供對真實代碼庫的有意義覆蓋。原因有二：

上下文限制：編碼代理針對單一工作流優化，但在漏洞研究中，需要保持窄範圍並並行處理多個假設。單個代理會話面對數十萬行代碼的倉庫，只能覆蓋很少一部分有用區域。
吞吐量限制：單流代理一次只能做一件事，而真實代碼庫需要對多個組件同時提出許多假設。將模型直接用於編碼代理只適合當研究人員已有線索且需要第二意見時，而無法實現高覆蓋。

Harness 的作用

通過大規模運行，Cloudflare 總結了四個教訓，每個都指向需要構建一個管理整體執行的 harness：

窄範圍產生更好的發現：明確指定要查找的漏洞類型和範圍，模型的表現更接近真實研究人員。
對抗性審查減少噪聲：在初始發現和隊列之間添加第二個代理，使用不同的提示和模型，只負責審查而不生成發現，能捕捉大量噪聲。
拆分鏈條改善推理：將“代碼是否有漏洞”和“攻擊者能否從外部利用”分成兩個獨立問題，模型對每個問題的回答更準確。
並行窄任務優於單一窮舉代理：多個代理處理嚴格限定的問題，然後去重結果，比一個代理試圖窮舉所有可能性更有效。

這些觀察指向一個不是聊天界面的工具，而是幫助實現最終結果的 harness。Cloudflare 利用 Mythos Preview 來構建、調整和改進原有的 harness，以充分發揮其優勢。

漏洞發現 Harness 實例

Cloudflare 的漏洞發現 harness 分為多個階段，用於掃描運行時、邊緣數據路徑、協議棧、控制平面和依賴的開源項目：

偵察階段：代理自上而下讀取倉庫，分發給負責各子系統的子代理，生成包含構建命令、信任邊界、入口點和攻擊面的架構文檔，併為下一階段生成初始任務隊列。
狩獵階段：代理根據偵察階段的任務，對特定子區域進行深度漏洞搜索，生成初步發現。
驗證階段：獨立代理對初步發現進行攻擊可行性驗證，排除無法實際利用的漏洞。
合成階段：將已驗證的漏洞鏈組合成完整利用，生成報告。

這種結構化的方法顯著提高了漏洞發現的效率和可靠性，為 AI 輔助安全研究提供了可擴展的框架。