2026-05-28 17:13 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

信任模型正在翻转

随着AI代码审查工具（如Anthropic的Claude Mythos）展现出比人类更强大的安全漏洞发现能力，软件安全的信任基础正从人类编写的代码转向AI审查的代码。文章以Mozilla Firefox为例，Mythos在单个评估周期内发现了271个漏洞，远超人类团队。这意味着人类在安全审查中的角色需要从“编写和审查实现”转向“定义软件的意图并验证实现是否偏离”。

来源Hacker News AI作者: My_Name

软件安全的信任基础正经历一场根本性的转变。长久以来，人类编写的代码因其背后的人类判断链条而获得安全的预设——开发者编写、同事审查、高级工程师批准，这一过程构成了安全的默认担保。然而，随着AI代码审查工具的能力跃升，这种预设正在瓦解。Anthropic的Claude Mythos在Mozilla Firefox上的表现清晰揭示了这一点：在单个评估周期中，Mythos发现了271个漏洞，而此前顶尖的AI模型Opus 4.6仅找到22个。Firefox作为安全强化程度最高的开源代码库之一，历经多年模糊测试、沙箱、内存安全工作和漏洞赏金计划，仍被AI发现了大量人类团队遗漏的隐患。这并非渐进改进，而是能力层级的飞跃。

信任锚点的移动意味着什么？本质上，人类信任的并非代码本身，而是人类判断的产物。安全漏洞往往存在于作者意图与实际行为之间的缝隙中，人类安全研究员需要同时理解这两个层面才能发现漏洞。Mythos的核心能力在于以机器规模进行对抗性代码解读：它不仅阅读代码，还能假设、测试、复现并解释问题。Google的Project Naptime、OpenAI的Codex Security以及DARPA的AI网络挑战都指向同一方向——AI正在从代码生成转向代码审讯。当模型能够比人类更有效地审查代码时，安全的信任基础就从“谁写的”转向“是否经受住了机器规模的对抗性审查”。

人类编写的代码信任模型受限于认知边界：审查者能记住的边缘案例数量、安全团队能投入的时间、每个迭代周期能生成的攻击假设。而AI驱动的审查可以规模化进行对抗性分析，以极低的成本模拟数百种攻击路径。Anthropic的报告指出，非专业人士使用Mythos也能发现操作系统和浏览器中的漏洞，这意味着攻击者的数量可能从少数精英激增至数千名新手。同时，AI审查带来的信任增益并非源于代码生成——AI编写的代码仍存在幻觉和不安全默认值等问题——而是源于对实现进行的穷举式对抗性搜索。未来的安全证书将不再是“优秀工程师编写”，而是“该实现通过了机器规模的对抗性审查，所有发现的问题已得到解决”。

这种变化映射了软件工程中持续发生的抽象层上移。从汇编语言到编译器，从手动内存管理到垃圾回收，从自建基础设施到云平台，每一次人类角色都向更高抽象层级移动。安全领域正处于这一转折点：人类负责定义软件的意义——将产品意图转化为精确规范、设计可验证边界、最小化权限泄露——而实现层（包括安全审查）则交由机器完成。这改变了工程师的核心价值：不再是逐行编写代码，而是能够设计出可以被安全地实现的系统。工具如Remy已经体现了这一方向——开发者编写规范，Remy将其编译为全栈应用，代码成为衍生品而非源头。信任模型的翻转不是遥远未来，而是正在发生的现实。团队应调整策略：将首席工程师的审查角色从代码级转向意图级，并开始将AI审查集成到构建流程中，以应对日益增长的攻击面。