AI News HubLIVE
站内改写

信任模型正在翻转

随着AI代码审查工具(如Anthropic的Claude Mythos)展现出比人类更强大的安全漏洞发现能力,软件安全的信任基础正从人类编写的代码转向AI审查的代码。文章以Mozilla Firefox为例,Mythos在单个评估周期内发现了271个漏洞,远超人类团队。这意味着人类在安全审查中的角色需要从“编写和审查实现”转向“定义软件的意图并验证实现是否偏离”。

文章情报

工程师中级

要点

  • 人类编写代码的安全预设正在被打破,AI审查代码逐渐获得信任。
  • Mozilla使用Claude Mythos在Firefox中发现了271个漏洞,凸显AI的审查能力。
  • 信任锚点从“人类编写”转向“经受AI审查”,安全审查成为机器擅长的领域。
  • 工程师的价值转向定义系统规范和意图,而非逐行编写代码。

为什么重要

这条新闻值得关注,因为人类编写代码的安全预设正在被打破,AI审查代码逐渐获得信任。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

软件安全的信任基础正经历一场根本性的转变。长久以来,人类编写的代码因其背后的人类判断链条而获得安全的预设——开发者编写、同事审查、高级工程师批准,这一过程构成了安全的默认担保。然而,随着AI代码审查工具的能力跃升,这种预设正在瓦解。Anthropic的Claude Mythos在Mozilla Firefox上的表现清晰揭示了这一点:在单个评估周期中,Mythos发现了271个漏洞,而此前顶尖的AI模型Opus 4.6仅找到22个。Firefox作为安全强化程度最高的开源代码库之一,历经多年模糊测试、沙箱、内存安全工作和漏洞赏金计划,仍被AI发现了大量人类团队遗漏的隐患。这并非渐进改进,而是能力层级的飞跃。

信任锚点的移动意味着什么?本质上,人类信任的并非代码本身,而是人类判断的产物。安全漏洞往往存在于作者意图与实际行为之间的缝隙中,人类安全研究员需要同时理解这两个层面才能发现漏洞。Mythos的核心能力在于以机器规模进行对抗性代码解读:它不仅阅读代码,还能假设、测试、复现并解释问题。Google的Project Naptime、OpenAI的Codex Security以及DARPA的AI网络挑战都指向同一方向——AI正在从代码生成转向代码审讯。当模型能够比人类更有效地审查代码时,安全的信任基础就从“谁写的”转向“是否经受住了机器规模的对抗性审查”。

人类编写的代码信任模型受限于认知边界:审查者能记住的边缘案例数量、安全团队能投入的时间、每个迭代周期能生成的攻击假设。而AI驱动的审查可以规模化进行对抗性分析,以极低的成本模拟数百种攻击路径。Anthropic的报告指出,非专业人士使用Mythos也能发现操作系统和浏览器中的漏洞,这意味着攻击者的数量可能从少数精英激增至数千名新手。同时,AI审查带来的信任增益并非源于代码生成——AI编写的代码仍存在幻觉和不安全默认值等问题——而是源于对实现进行的穷举式对抗性搜索。未来的安全证书将不再是“优秀工程师编写”,而是“该实现通过了机器规模的对抗性审查,所有发现的问题已得到解决”。

这种变化映射了软件工程中持续发生的抽象层上移。从汇编语言到编译器,从手动内存管理到垃圾回收,从自建基础设施到云平台,每一次人类角色都向更高抽象层级移动。安全领域正处于这一转折点:人类负责定义软件的意义——将产品意图转化为精确规范、设计可验证边界、最小化权限泄露——而实现层(包括安全审查)则交由机器完成。这改变了工程师的核心价值:不再是逐行编写代码,而是能够设计出可以被安全地实现的系统。工具如Remy已经体现了这一方向——开发者编写规范,Remy将其编译为全栈应用,代码成为衍生品而非源头。信任模型的翻转不是遥远未来,而是正在发生的现实。团队应调整策略:将首席工程师的审查角色从代码级转向意图级,并开始将AI审查集成到构建流程中,以应对日益增长的攻击面。