2026-05-28 17:13 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

信任模型正在翻轉

隨着AI代碼審查工具（如Anthropic的Claude Mythos）展現出比人類更強大的安全漏洞發現能力，軟件安全的信任基礎正從人類編寫的代碼轉向AI審查的代碼。文章以Mozilla Firefox為例，Mythos在單個評估週期內發現了271個漏洞，遠超人類團隊。這意味着人類在安全審查中的角色需要從“編寫和審查實現”轉向“定義軟件的意圖並驗證實現是否偏離”。

來源Hacker News AI作者: My_Name

軟件安全的信任基礎正經歷一場根本性的轉變。長久以來，人類編寫的代碼因其背後的人類判斷鏈條而獲得安全的預設——開發者編寫、同事審查、高級工程師批准，這一過程構成了安全的默認擔保。然而，隨着AI代碼審查工具的能力躍升，這種預設正在瓦解。Anthropic的Claude Mythos在Mozilla Firefox上的表現清晰揭示了這一點：在單個評估週期中，Mythos發現了271個漏洞，而此前頂尖的AI模型Opus 4.6僅找到22個。Firefox作為安全強化程度最高的開源代碼庫之一，歷經多年模糊測試、沙箱、內存安全工作和漏洞賞金計劃，仍被AI發現了大量人類團隊遺漏的隱患。這並非漸進改進，而是能力層級的飛躍。

信任錨點的移動意味着什麼？本質上，人類信任的並非代碼本身，而是人類判斷的產物。安全漏洞往往存在於作者意圖與實際行為之間的縫隙中，人類安全研究員需要同時理解這兩個層面才能發現漏洞。Mythos的核心能力在於以機器規模進行對抗性代碼解讀：它不僅閲讀代碼，還能假設、測試、復現並解釋問題。Google的Project Naptime、OpenAI的Codex Security以及DARPA的AI網絡挑戰都指向同一方向——AI正在從代碼生成轉向代碼審訊。當模型能夠比人類更有效地審查代碼時，安全的信任基礎就從“誰寫的”轉向“是否經受住了機器規模的對抗性審查”。

人類編寫的代碼信任模型受限於認知邊界：審查者能記住的邊緣案例數量、安全團隊能投入的時間、每個迭代週期能生成的攻擊假設。而AI驅動的審查可以規模化進行對抗性分析，以極低的成本模擬數百種攻擊路徑。Anthropic的報告指出，非專業人士使用Mythos也能發現操作系統和瀏覽器中的漏洞，這意味着攻擊者的數量可能從少數精英激增至數千名新手。同時，AI審查帶來的信任增益並非源於代碼生成——AI編寫的代碼仍存在幻覺和不安全默認值等問題——而是源於對實現進行的窮舉式對抗性搜索。未來的安全證書將不再是“優秀工程師編寫”，而是“該實現通過了機器規模的對抗性審查，所有發現的問題已得到解決”。

這種變化映射了軟件工程中持續發生的抽象層上移。從彙編語言到編譯器，從手動內存管理到垃圾回收，從自建基礎設施到雲平台，每一次人類角色都向更高抽象層級移動。安全領域正處於這一轉折點：人類負責定義軟件的意義——將產品意圖轉化為精確規範、設計可驗證邊界、最小化權限泄露——而實現層（包括安全審查）則交由機器完成。這改變了工程師的核心價值：不再是逐行編寫代碼，而是能夠設計出可以被安全地實現的系統。工具如Remy已經體現了這一方向——開發者編寫規範，Remy將其編譯為全棧應用，代碼成為衍生品而非源頭。信任模型的翻轉不是遙遠未來，而是正在發生的現實。團隊應調整策略：將首席工程師的審查角色從代碼級轉向意圖級，並開始將AI審查集成到構建流程中，以應對日益增長的攻擊面。