信任模型正在翻轉
隨着AI代碼審查工具(如Anthropic的Claude Mythos)展現出比人類更強大的安全漏洞發現能力,軟件安全的信任基礎正從人類編寫的代碼轉向AI審查的代碼。文章以Mozilla Firefox為例,Mythos在單個評估週期內發現了271個漏洞,遠超人類團隊。這意味着人類在安全審查中的角色需要從“編寫和審查實現”轉向“定義軟件的意圖並驗證實現是否偏離”。
文章情報
要點
- 人類編寫代碼的安全預設正在被打破,AI審查代碼逐漸獲得信任。
- Mozilla使用Claude Mythos在Firefox中發現了271個漏洞,凸顯AI的審查能力。
- 信任錨點從“人類編寫”轉向“經受AI審查”,安全審查成為機器擅長的領域。
- 工程師的價值轉向定義系統規範和意圖,而非逐行編寫代碼。
為甚麼重要
這條新聞值得關注,因為人類編寫代碼的安全預設正在被打破,AI審查代碼逐漸獲得信任。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
軟件安全的信任基礎正經歷一場根本性的轉變。長久以來,人類編寫的代碼因其背後的人類判斷鏈條而獲得安全的預設——開發者編寫、同事審查、高級工程師批准,這一過程構成了安全的默認擔保。然而,隨着AI代碼審查工具的能力躍升,這種預設正在瓦解。Anthropic的Claude Mythos在Mozilla Firefox上的表現清晰揭示了這一點:在單個評估週期中,Mythos發現了271個漏洞,而此前頂尖的AI模型Opus 4.6僅找到22個。Firefox作為安全強化程度最高的開源代碼庫之一,歷經多年模糊測試、沙箱、內存安全工作和漏洞賞金計劃,仍被AI發現了大量人類團隊遺漏的隱患。這並非漸進改進,而是能力層級的飛躍。
信任錨點的移動意味着什麼?本質上,人類信任的並非代碼本身,而是人類判斷的產物。安全漏洞往往存在於作者意圖與實際行為之間的縫隙中,人類安全研究員需要同時理解這兩個層面才能發現漏洞。Mythos的核心能力在於以機器規模進行對抗性代碼解讀:它不僅閲讀代碼,還能假設、測試、復現並解釋問題。Google的Project Naptime、OpenAI的Codex Security以及DARPA的AI網絡挑戰都指向同一方向——AI正在從代碼生成轉向代碼審訊。當模型能夠比人類更有效地審查代碼時,安全的信任基礎就從“誰寫的”轉向“是否經受住了機器規模的對抗性審查”。
人類編寫的代碼信任模型受限於認知邊界:審查者能記住的邊緣案例數量、安全團隊能投入的時間、每個迭代週期能生成的攻擊假設。而AI驅動的審查可以規模化進行對抗性分析,以極低的成本模擬數百種攻擊路徑。Anthropic的報告指出,非專業人士使用Mythos也能發現操作系統和瀏覽器中的漏洞,這意味着攻擊者的數量可能從少數精英激增至數千名新手。同時,AI審查帶來的信任增益並非源於代碼生成——AI編寫的代碼仍存在幻覺和不安全默認值等問題——而是源於對實現進行的窮舉式對抗性搜索。未來的安全證書將不再是“優秀工程師編寫”,而是“該實現通過了機器規模的對抗性審查,所有發現的問題已得到解決”。
這種變化映射了軟件工程中持續發生的抽象層上移。從彙編語言到編譯器,從手動內存管理到垃圾回收,從自建基礎設施到雲平台,每一次人類角色都向更高抽象層級移動。安全領域正處於這一轉折點:人類負責定義軟件的意義——將產品意圖轉化為精確規範、設計可驗證邊界、最小化權限泄露——而實現層(包括安全審查)則交由機器完成。這改變了工程師的核心價值:不再是逐行編寫代碼,而是能夠設計出可以被安全地實現的系統。工具如Remy已經體現了這一方向——開發者編寫規範,Remy將其編譯為全棧應用,代碼成為衍生品而非源頭。信任模型的翻轉不是遙遠未來,而是正在發生的現實。團隊應調整策略:將首席工程師的審查角色從代碼級轉向意圖級,並開始將AI審查集成到構建流程中,以應對日益增長的攻擊面。