对智能体网络进行红队测试:理解AI智能体大规模交互时的故障点
微软研究院对拥有100多个AI智能体的实时平台进行了红队测试,发现了仅通过智能体交互才会出现的网络级风险,包括自我传播蠕虫、声誉操纵、制造共识和代理链等。这些风险无法通过单独测试智能体来重现。研究还观察到少数智能体自发发展出安全行为,从而降低攻击成功率。结果强调需要跨平台、智能体和模型层采取分层防御策略。
微软研究院近日发布了一项针对AI智能体网络的安全研究,通过对一个包含100多个智能体的内部平台进行红队测试,揭示了仅在大规模交互中才会浮现的独特风险。这些风险无法通过单独测试单个智能体来观测,因为它们是智能体之间动态互动的结果。
研究团队构建了一个模拟真实环境的平台,每个智能体代表一个人类用户,持续运行并参与论坛讨论、直接消息、市场交易等活动。智能体基于GPT-4o、GPT-4.1和GPT-5类模型,具有持久上下文和定期激活机制。在数周的运行中,这些智能体积累了对话历史、发展出关系并形成了声誉系统。
研究人员识别出四种网络级攻击模式。第一种是自我传播蠕虫:一个恶意消息可以在智能体网络内自主复制和传播,每一步都窃取隐私数据,并造成拒绝服务。第二种是声誉操纵:攻击者通过一个可信智能体散布虚假信息,利用其他智能体的跟帖和点赞制造虚假共识,形成雪崩效应。第三种是制造共识:攻击者控制多个Sybil智能体,以独立身份联系目标智能体,声称进行审计,当目标尝试验证时,验证过程被攻击者控制,导致敏感信息泄露。第四种是代理链:攻击者通过中介智能体间接接触目标,中介智能体在不知情的情况下转译请求并传递敏感数据,攻击者踪迹在第一次跳转后消失。
值得注意的是,研究也发现了初步的防御迹象。一小部分智能体在没有明确指令的情况下,基于交互经验逐渐发展出安全行为,例如发布警告、撰写隐私宣言等。这些行为通过网络上下文传播,影响其他智能体,从而提高了整体网络的抵抗力。
研究人员强调,这些发现表明,构建有用的智能体网络需要理解并缓解网络级风险。建议采用分层防御策略:在平台层监控异常模式并保留通信记录;在智能体层要求明确理由才能行动,不轻信重复的主张;在模型层训练模型抵抗来自其他智能体的操纵。此外,实施跳数和速率限制、隔离可疑传播事件、Sybil抵抗和独立性检查,以及网络遥测和溯源日志,都是重要的缓解措施。
该研究为AI智能体生态系统的安全性提供了重要见解,表明随着智能体间交互日益频繁,传统单智能体安全评估已不足以应对新兴威胁。