预测而非枚举
Anthropic在其安全运营指南中推荐使用EPSS(漏洞利用预测评分系统)来优先处理漏洞,这标志着前沿AI实验室首次公开支持预测模型用于防御。文章探讨了网络安全中从枚举到预测的转变,指出静态严重性评分已无法应对机器规模的问题,并提出了基于概率的优先排序方法、本地背景的重要性以及具体的政策调整建议。
Anthropic在2026年4月发布的一份安全运营指南中,在建议修补CISA已知被利用漏洞列表和自动化部署流水线之间,夹着一句简短建议:“使用EPSS来优先处理其余部分。”对于过去十年处理过漏洞积压问题的任何人而言,这句话承认了一个广泛感知但常常未被言明的事实:安全项目已成为信号与噪声的机器规模问题。
EPSS(漏洞利用预测评分系统)是一个统计模型,它接收已知软件漏洞,通过一组关于攻击者在互联网上实际活动的信号,返回该漏洞在未来30天内被利用的概率。它不是LLM,不进行推理或提示工程。它预测。而推荐它的公司,正是其最新模型能在生产软件中发掘数千个新型可利用漏洞(其中许多已有二三十年历史,大部分仍未修补)的公司。
据我们所知,这是前沿AI实验室首次公开推荐一个专门构建的预测模型用于防御问题。LLM实验室通常推荐LLM。Anthropic没有这样做值得注意,但这条建议本身对它所针对的从业者来说并非新闻。它描述了他们一直在做的事情。
安静的共识
数量问题并不新鲜。早在2015年,任何针对大型企业环境运行扫描器的人每月都会生成数十万个发现。到2020年,针对云环境运行的人会生成数百万个。企业已经花了近十年时间盯着仪表盘,上面未修复的关键发现数量超过了负责修复的团队的能力。换言之,网络安全已成为机器规模。
基于风险的漏洞管理作为一个产品类别,大约从2018年开始存在。EPSS作为一个公共资源,从2021年起便可使用。如今,超过120家供应商将其嵌入产品。该领域多年以来一直可以使用预测基线。
一直缺少的是改变现状的外部理由——来自审计员、模型风险管理团队甚至董事会的建议。审计员希望有一套明确的期望,使评分更客观、更易评估。合规框架如CVSS(通用漏洞评分系统)之所以受欢迎,是因为CVSS简单。但实施更高效的方案历来需要前述外部推动。一位在职CISO可以告诉你,她在2019年就已不再将CVSS评分9.8/10的每个漏洞视为紧急情况,但她也会告诉你,她仍然在报告中保留CVSS。
Anthropic的指导之所以有用,是因为它将私下共识公之于众。修补你所知道的已被利用的漏洞,然后根据团队能力或风险承受能力,使用高于某个阈值的EPSS。自2021年11月以来,DHS CISA发布已知被利用漏洞的做法,只是进一步证明现有方法已被规模和缺乏信号所淹没。
为什么明确说预测
2014年,在Black Hat大会上,In-Q-Tel首席信息安全官Dan Geer提出了一个首要原则问题:软件中的漏洞是稀疏还是密集?稀疏意味着有限,每个修复都明显缩小攻击面。密集意味着田野里的杂草。Geer无法回答这个问题,因为数据不充分。
八年后,卡内基梅隆大学软件工程研究所的Jonathan Spring将漏洞枚举与停机问题联系起来,并在理论上证明,对于任何足够复杂的已部署软件,总存在更多未发现的缺陷。
过去18个月AI驱动的发现结果使得密度论证即使在进行合规审查时也无法被忽视。OpenBSD中一个27年的漏洞。FFmpeg中一个16年、五百万次模糊测试从未发现的漏洞。根据开发者自己的统计,已披露的发现不到已发现的1%。但同样,数量本身就已经是个问题。随着其最新模型Mythos的发布,Anthropic告诉团队要为未来24个月内数量级增长做好准备。
静态严重性评分无法在数量问题下生存,因为它是针对人类规模问题的解决方案,而问题是机器规模的。同样,任何将每个关键发现视为紧急情况的流程也无法生存。行动的阈值必须是概率性的、可衡量的、可辩护的。这就是预测模型的用途,也是工作团队在嘈杂的大型企业环境中一直在使用的。
指向机器与认识机器
Geer在2025年夏天回到他2014年的问题,与Dave Aitel在Lawfare上合著文章。这篇文章为行业提供了一个一直在模糊处理的词汇区分:
代码中的漏洞不自动构成威胁。缓冲区溢出是危害。只有当攻击者能够可靠地利用它——在此环境中、针对这些控制、通过此流量——它才成为风险。漏洞很多,但针对特定目标武器化特定漏洞的能力要罕见得多。
他们写道,行业已经构建了一台指向机器。它枚举。
即使是孩子也会早早学会指向和命名——但知道“狗”这个词并不能揭示动物是否会咬人。在网络安全中,我们构建了同样指向和命名漏洞的系统,却并不理解它们是否真正危险。通过仅将AI用于模式识别,我们创造了一个强大的“指向机器”,它能识别潜在威胁,但无法理解其实际影响。我们需要的反而是“认识机器”,能够理解代码在复杂真实环境中的功能,识别不仅是危害,还有将这些危害转化为风险的完整上下文。
认识机器是一个理解代码在特定环境中如何行为,并识别将危害转化为风险的上下文的系统。预测模型就是构建认识机器的方式。EPSS是最清晰的公开例子:它覆盖每个已发布的CVE,并每日更新。
全局不是本地
EPSS是一个全局模型。它看到攻击者在整个互联网上的活动。它捕捉到严重性评分永远无法捕捉的利用活动模式。但它无法看到任何特定组织的环境。它不知道哪些资产承载企业真正关心的数据。它不知道存在哪些补偿控制、修复在何处有风险、或者遥测数据和历史如何改变概率。
一个被利用概率为97%的9.8分漏洞,与一个概率为0.1%的9.8分漏洞,不是同一种动物。两个组织对同一个CVE应用相同EPSS阈值,但针对不同资产,结果也不同。一个组织将易受攻击的代码路径暴露在互联网上,背后有一个不检查相关协议的Web应用防火墙。另一个组织将同一个CVE放在一个内部系统上,该系统只接受来自单个服务账户的经过身份验证的输入。扫描器无法区分它们。全局模型无法区分它们。它们的实际风险曲线相差多个数量级。
本地上下文正是大多数安全团队一直卡住的地方,也是该领域未来十年争夺的战场。
本地认识机器的实际要求
将更好的指向机器与更快的修复引擎配对,你所做的只是加速产生混乱、破坏和浪费。你还会花费巨额代理令牌来修复那些在你的环境中从未危险的漏洞。
与无所不知的扫描器相比,本地模型针对所防御的特定环境进行训练:资产清单、应用拓扑、可达性、已部署的控制、现场观察到的攻击遥测以及组织自身修复及其结果的历史。模型生成针对该企业的概率。大多数组织已经拥有输入数据,分散在CMDB、端点代理、防火墙日志、工单系统和扫描器输出中。这种上下文正是攻击者(无论是使用老式metasploit还是拥有无限预算的Mythos)在其模型中所缺乏的。上下文成为防御者的不对称优势,也许是唯一存在的优势。
真正重要的政策转变
决定安全项目能否在未来24个月内生存的干预措施并非纯粹技术性的。CISO可以不购买任何东西就实施其中大部分。
重写SLA。大多数漏洞管理SLA按严重性组织。关键在15天内,高在30天内,中在90天内。这种结构是为关键发现数量足够小到有意义的时代而建的。现在它实际上是有害的,因为它迫使团队在无人利用的9.8分和正在遭受主动攻击的7.5分上花费相同精力。SLA应根据利用概率和资产暴露来重写,而非严重性。无法说服GRC团队的CISO至少可以增加一个基于概率的第二级别,使其与基于严重性的规则并行执行。
改变董事会所见的指标。如果每月安全报告统计不同桶中的漏洞、暴露或发现数量(“关键”、“超过30天未修补”等),那么组织正被按错误的指标管理。指标应为随时间变化的可利用性加权暴露,加上第二条线表示预测与观察到的利用之间的差异。一旦解释清楚,董事会会接受。这比向他们展示一个与风险无关、且随着新LLM模型发布呈指数增长的数字要好得多。更重要的是:一个优秀的团队可以完成惊人的修复工作量,但风险仍可能上升,因为他们测量和修复了错误的东西。一个高效、拥有丰富上下文的团队可以完成少得多的工作,却能显著降低事件发生的概率。
投资遥测。安全项目能构建的最有价值的工具是优先级排序与被利用之间的反馈循环。如果循环显示你错了,模型会改进。如果循环不存在,你将永远错误(或者根本不知道遗漏了什么)。
修复合规对话。CVSS之所以存活,是因为监管惯性。PCI、HIPAA和大多数州的数据泄露通知框架仍引用严重性。未来两年中处境最好的CISO是那些现在以书面形式与审计员沟通、在现有规则下基于概率的优先排序框架是什么样的。
为瓶颈招聘,而非扫描。行业花了十年时间招聘人员来发现漏洞。现在的瓶颈是决定哪些漏洞重要、部署修复、并衡量优先级排序是否正确。职位描述应反映这一点。安全数据工程师可能比增加容量更能提高效率以满足SLA。
这些都不需要新产品。所有需要的是一位愿意公开说旧教条已破、新教条将由数据和概率管理的CISO。这正是Anthropic那五个词句子真正宣布的转变。技术已经可用,模型已经到来——既有基于LLM的发现漏洞的模型,也有预测性认识机器用于高效优先级排序。