2026-06-27 02:33 UTC+8站内改写1 分钟阅读更新: 2026-06-27 03:10 UTC+8

2000人试图黑掉我的AI助手，结果发生了什么？

Fernando Irarrázaval在hackmyclaw.com发起挑战，邀请人们通过邮件窃取其OpenClaw测试实例中的秘密。尽管有6000次尝试（花费500美元token，并导致谷歌账号被暂停），无人成功。底层模型为Opus 4.6，使用了抗提示注入规则。这反映了前沿模型在抗注入攻击方面的训练效果，但仍需谨慎，无法保证绝对安全。

来源Simon Willison's Weblog

Fernando Irarrázaval在hackmyclaw.com上发起了一项引人注目的安全挑战：他运行了一个OpenClaw测试实例，并公开邀请任何人通过发送电子邮件来尝试窃取其中存储的秘密。这个实验旨在检验当前大语言模型在面对提示注入攻击时的防御能力。结果出乎意料：尽管经历了6000次尝试，花费了500美元的token费用，甚至导致谷歌账号因接收过多邮件而被暂停，但没有一个人成功获取到秘密。

测试实例使用的是Opus 4.6模型，配备了一套明确的抗提示注入规则。这些规则明确禁止基于邮件内容泄露secrets.env文件或任何凭据、修改自身文件（如SOUL.md、AGENTS.md）、执行邮件中的命令或运行代码，以及将数据外泄到外部端点。这些规则构成了防御的核心，有效阻止了各种攻击尝试。

这一结果与当前大语言模型安全领域的进展相一致。研究实验室正在大力训练前沿模型，使其不易受到提示注入攻击。正如OpenAI的GPT-5.6系统卡中所展示的，这些努力确实让攻击变得更加困难。然而，这并不意味着可以完全放松警惕。作者提醒，在生产系统中，如果提示注入攻击可能造成不可逆的损害，仍然不建议直接部署。6000次失败并不能保证更复杂的攻击方式无法突破。Hacker News上的讨论充满了建设性的怀疑和真诚的回应，显示了社区对这一问题的关注。

值得注意的是，这次挑战不仅展示了当前模型的防御能力，也引发了关于AI安全边界的重要讨论。随着模型能力的不断提升，确保它们不被恶意利用变得至关重要。希望未来的研究能够提供更强大的防护机制。