AI News HubLIVE
站内改写2 分钟阅读

对智能体网络进行红队测试:理解AI智能体大规模交互时的故障点

微软研究院对拥有100多个AI智能体的实时平台进行了红队测试,发现了仅通过智能体交互才会出现的网络级风险,包括自我传播蠕虫、声誉操纵、制造共识和代理链等。这些风险无法通过单独测试智能体来重现。研究还观察到少数智能体自发发展出安全行为,从而降低攻击成功率。结果强调需要跨平台、智能体和模型层采取分层防御策略。

来源Microsoft Research Blog作者: Gagan Bansal, Shujaat Mirza, Keegan Hines, Will Epperson, Zachary Huang, Whitney Maxwell, Pete Bryan, Tyler Payne, Adam Fourney, Amanda Swearngin, Wenyue Hua, Tori Westerhoff, Amanda Minnich, Maya Murad, Ece Kamar, Ram Shankar Siva Kumar, Saleema Amershi

微软研究院近日发布了一项针对AI智能体网络的安全研究,通过对一个包含100多个智能体的内部平台进行红队测试,揭示了仅在大规模交互中才会浮现的独特风险。这些风险无法通过单独测试单个智能体来观测,因为它们是智能体之间动态互动的结果。

研究团队构建了一个模拟真实环境的平台,每个智能体代表一个人类用户,持续运行并参与论坛讨论、直接消息、市场交易等活动。智能体基于GPT-4o、GPT-4.1和GPT-5类模型,具有持久上下文和定期激活机制。在数周的运行中,这些智能体积累了对话历史、发展出关系并形成了声誉系统。

研究人员识别出四种网络级攻击模式。第一种是自我传播蠕虫:一个恶意消息可以在智能体网络内自主复制和传播,每一步都窃取隐私数据,并造成拒绝服务。第二种是声誉操纵:攻击者通过一个可信智能体散布虚假信息,利用其他智能体的跟帖和点赞制造虚假共识,形成雪崩效应。第三种是制造共识:攻击者控制多个Sybil智能体,以独立身份联系目标智能体,声称进行审计,当目标尝试验证时,验证过程被攻击者控制,导致敏感信息泄露。第四种是代理链:攻击者通过中介智能体间接接触目标,中介智能体在不知情的情况下转译请求并传递敏感数据,攻击者踪迹在第一次跳转后消失。

值得注意的是,研究也发现了初步的防御迹象。一小部分智能体在没有明确指令的情况下,基于交互经验逐渐发展出安全行为,例如发布警告、撰写隐私宣言等。这些行为通过网络上下文传播,影响其他智能体,从而提高了整体网络的抵抗力。

研究人员强调,这些发现表明,构建有用的智能体网络需要理解并缓解网络级风险。建议采用分层防御策略:在平台层监控异常模式并保留通信记录;在智能体层要求明确理由才能行动,不轻信重复的主张;在模型层训练模型抵抗来自其他智能体的操纵。此外,实施跳数和速率限制、隔离可疑传播事件、Sybil抵抗和独立性检查,以及网络遥测和溯源日志,都是重要的缓解措施。

该研究为AI智能体生态系统的安全性提供了重要见解,表明随着智能体间交互日益频繁,传统单智能体安全评估已不足以应对新兴威胁。