2026-07-04 20:19 UTC+8站内改写2 分钟阅读更新: 2026-07-04 20:40 UTC+8

人工智能在网络安全中的不对称未来

本文分析了AI在网络安全中的双刃剑效应，重点探讨了AI代理、开放模型、攻击者与防御者的不对称性，并建议防御者应优先进行任务丰富化和小型自动化，而非全面自动化。

来源Hacker News AI作者: mstrada

网络安全一直有一个有趣的性质：同样的知识既可以保护系统，也可以破坏系统。一个概念验证漏洞利用可以帮助供应商重现并修补漏洞，也可能帮助攻击者在用户更新系统之前将其武器化。这些并不新鲜，但变化的是这些行为发生的速度、规模和可及性。

本文首先澄清了AI代理的概念：它并非简单的自动化工具，而是能够推理、使用工具并执行多步骤行动以实现目标的系统。目前，AI代理还无法完全自主地执行端到端的网络攻击，但在代码漏洞检测等领域进步迅速。

意图识别是AI安全的核心难题。语言模型的输出依赖于输入表达，而同样的技术请求可能出于合法或恶意目的。为了应对这一问题，模型采用了安全对齐、RLHF、运行时监控等手段，但这些机制存在平衡难题：过于严格会限制合法使用，过于宽松则降低攻击门槛。因此，像Anthropic的Claude Mythos和OpenAI的GPT-Cyber等新模型开始引入受控访问机制，这虽然被部分批评为营销手段，但反映出业界对安全与开放之间矛盾的重视。

本地模型将成为未来AI安全博弈的关键。虽然云模型可以通过访问控制限制滥用，但开源模型的普及使得集中控制越来越困难。不过，当前达到先进水平的模型需要大量硬件资源（如128GB以上RAM），这在一定程度上限制了完全去中心化的扩散。政府可能试图对高性能开源模型实施监管，但这类禁令往往难以彻底执行。

攻击者和防御者之间存在根本性的不对称：防御者的自动化失败代价极高，而攻击者则可以承受大量失败。例如，防御系统误关生产基础设施会导致严重后果，而攻击者只需换一种方法继续尝试。这种不对称类似于军事领域廉价无人机与昂贵防空系统的对抗。在网络安全领域，攻击者可能通过大量低成本代理来淹没防御体系。

面对这一局势，防御者不应盲目追求全面自动化。当前更有效的策略是专注于任务丰富化、自动辅助和优先级排序。例如，利用AI进行警报分类、漏洞优先级排序、威胁情报摘要等，可以在不交出完全控制权的情况下提升效率。代码审计是另一个有前景的领域，AI能帮助发现大量漏洞，但仍需人工复核以避免误报。更重要的是，在代码编写阶段就通过AI检测并修复安全隐患，可以从源头上减少漏洞数量。

总之，AI在网络安全中的未来充满不对称性。防御者需要理性看待自动化，将资源集中在能产生最大收益的环节，同时认识到数据质量是AI系统有效性的基础。