黑掉AI代理:通过GitHub安全代码游戏构建智能体AI安全技能
GitHub Secure Code Game第四季专注于智能体AI安全,玩家通过五个逐步升级的挑战,利用自然语言诱使一个故意存在漏洞的AI助手泄露秘密。该游戏免费开源,已在GitHub Codespaces中运行,超过10,000名开发者使用过。
我在某个晚上浏览信息流时偶然发现了OpenClaw,一个开源的个人AI助手,人们称它为“贾维斯”或“通往新现实的门户”。这个想法很美妙:一个运行在你的机器或云端的AI,通过WhatsApp或Telegram与你对话,清理你的收件箱,管理你的日历,浏览网页,运行shell命令,甚至编写自己的插件。用户让它为自己办理登机手续、用手机搭建整个网站,并自动化那些他们从未想过可能的事情。
我的第一反应和其他人一样:这太不可思议了。
但我的第二反应……不同。我开始思考,当这种力量遇到恶意提示时会发生什么。如果有人诱骗助手读取不该访问的文件怎么办?如果被污染的网页重写了助手的指令怎么办?如果多代理链中的一个代理将坏数据传递给另一个盲目信任的代理怎么办?
这些问题成为了Secure Code Game第四季的主题。
Secure Code Game是一个免费、开源、在编辑器内进行的课程,玩家在其中利用并修复故意存在漏洞的代码。我在2023年3月创建第一季时,目标很简单:让开发者享受安全培训。修复漏洞代码,保持功能,升级。这个核心理念在每个赛季中都未曾改变。
第二季扩展到多堆栈挑战,社区贡献了JavaScript、Python、Go和GitHub Actions内容。第三季带领玩家进入LLM安全领域,学习黑客攻击并加固大型语言模型。在此过程中,来自行业、开源和学术界的超过10,000名开发者通过该游戏磨练了自己的技能。
每个赛季都随着技术格局而变化。当我们发布第一季时,AI编码助手刚刚开始成为主流。到第三季时,我们教玩家编写恶意提示并防御它们。现在,第四季我们正在应对能够自主行动的AI系统的安全挑战——它们可以浏览网页、调用API、与其他代理协调并代表你行动。
智能体AI安全为何现在至关重要
时机并非巧合。AI代理以惊人的速度从研究原型转变为生产工具,安全社区正在努力跟上。
OWASP智能体应用十大威胁(2026版)汇集了超过100名安全研究人员的意见,现在将代理目标劫持、工具滥用、身份滥用和内存中毒列为关键威胁。Dark Reading的一项调查发现,48%的网络安全专业人士认为,到2026年底,智能体AI将成为头号攻击向量。思科的《2026年AI安全状况》报告指出,虽然83%的组织计划部署智能体AI能力,但只有29%的组织认为已做好安全部署的准备。
采纳与准备之间的差距正是漏洞滋生的地方。而缩小这一差距的最佳方法是学习像攻击者一样思考。
认识ProdBot:你故意存在漏洞的AI助手
第四季让你置身于ProdBot——你的生产力机器人,一个故意存在漏洞的终端智能体编码助手。受OpenClaw和GitHub Copilot CLI等工具的启发,ProdBot将自然语言转换为bash命令,浏览模拟网页,连接MCP(模型上下文协议)服务器,运行组织批准的技能,存储持久化内存,并编排多代理工作流。
你的任务横跨五个渐进等级:使用自然语言让ProdBot泄露它永远不应暴露的秘密。如果你能读取password.txt的内容,你就发现了一个安全漏洞。
无需AI或编码经验……只需好奇心和实验意愿。一切都通过CLI中的自然语言进行。
五个等级,五次升级,五个漏洞
每个等级都反映了真实AI工具演进的阶段。当ProdBot获得新能力时,升级会打开一个新的攻击面供你发现。以下是ProdBot成长过程中的样子:
第一级从基础开始:ProdBot在沙盒工作区内生成并执行bash命令。你能逃出沙盒吗?
第二级赋予ProdBot网页访问权限。它现在可以浏览模拟的互联网,包括新闻、金融、体育和购物网站。当AI读取不受信任的内容时会发生什么?
第三级将ProdBot连接到MCP服务器——股票报价、网页浏览和云备份的外部工具提供商。更多工具,更多力量,更多入侵途径。
第四级添加了组织批准的技能和持久化内存。ProdBot现在可以运行预构建的自动化插件并跨会话记住你的偏好。信任是分层建立的……但它值得信任吗?
第五级将所有功能整合在一起:六个专门代理、三个MCP服务器、三个技能和一个模拟的开源项目网站。该平台声称所有代理都已沙盒化,所有数据都经过预先验证。是时候检验这一点了。
每个等级都建立在前一个等级的基础上,这种渐进正是关键。
我们不会告诉你每个等级具体会发现哪些漏洞,因为那会破坏乐趣。但我们敢说:你在第四季中发现的攻击模式并非理论上的。它们反映了安全团队在组织将自主AI系统部署到生产环境时正在应对的真实风险。
想想CVE-2026-25253(CVSS 8.8——高危):被称为“ClawBleed”或一键远程代码执行(RCE)漏洞。它允许攻击者通过恶意链接窃取认证令牌并完全控制OpenClaw实例。
目标不仅仅是学会一个特定的利用方法。而是建立那种本能,帮助你在现实世界中识别这些模式——无论你是在审查代理的架构、审计工具集成,还是仅仅决定赋予刚刚加入你团队的AI助手多少自主权。
两分钟内开始
整个体验运行在GitHub Codespaces中,因此无需安装、无需配置,而且不花费一分钱(Codespaces提供每月最多60小时的免费使用)。你在两分钟内即可进入ProdBot的终端,每个赛季都是独立的,因此你可以直接跳到第四季而无需完成之前的赛季。
你可能会发现第三季是有帮助的基础,因为它建立了AI安全的基础知识。但不是必需的。只需带上你的黑客心态。
准备好了吗?立即开始第四季 >
特别感谢GitHub安全产品工程高级工程师Rahul Zhade和第三季创作者Bartosz Gałek对第四季的测试和改进。
常见问题
玩第四季需要AI或编码经验吗? 不需要。一切通过CLI中的自然语言进行。你输入纯英语(或任何语言)的提示,ProdBot做出响应。好奇心和实验意愿就是全部所需。
我需要先完成之前的赛季吗? 不需要。每个赛季都是独立的。你可以通过运行ProdBot并输入level命令直接跳入第四季。不过,第三季在AI安全方面建立了有用的基础,大约需要1.5小时。
第四季需要多长时间? 大约两小时,但取决于你探索每个等级的深度。有些玩家喜欢每个等级尝试多种方法。
这是免费的吗? 是的。Secure Code Game是开源且免费玩的。它运行在GitHub Codespaces上,该服务提供每月最多60小时的免费使用。
有什么速率限制? 第四季使用GitHub Models,有速率限制。如果达到限制,请等待重置后继续。了解更多关于负责任使用GitHub Models的信息。