對智能體網絡進行紅隊測試:理解AI智能體大規模交互時的故障點
微軟研究院對擁有100多個AI智能體的實時平台進行了紅隊測試,發現了僅通過智能體交互才會出現的網絡級風險,包括自我傳播蠕蟲、聲譽操縱、製造共識和代理鏈等。這些風險無法通過單獨測試智能體來重現。研究還觀察到少數智能體自發發展出安全行為,從而降低攻擊成功率。結果強調需要跨平台、智能體和模型層採取分層防禦策略。
微軟研究院近日發佈了一項針對AI智能體網絡的安全研究,通過對一個包含100多個智能體的內部平台進行紅隊測試,揭示了僅在大規模交互中才會浮現的獨特風險。這些風險無法通過單獨測試單個智能體來觀測,因為它們是智能體之間動態互動的結果。
研究團隊構建了一個模擬真實環境的平台,每個智能體代表一個人類用户,持續運行並參與論壇討論、直接消息、市場交易等活動。智能體基於GPT-4o、GPT-4.1和GPT-5類模型,具有持久上下文和定期激活機制。在數週的運行中,這些智能體積累了對話歷史、發展出關係並形成了聲譽系統。
研究人員識別出四種網絡級攻擊模式。第一種是自我傳播蠕蟲:一個惡意消息可以在智能體網絡內自主複製和傳播,每一步都竊取隱私數據,並造成拒絕服務。第二種是聲譽操縱:攻擊者通過一個可信智能體散佈虛假信息,利用其他智能體的跟帖和點贊製造虛假共識,形成雪崩效應。第三種是製造共識:攻擊者控制多個Sybil智能體,以獨立身份聯繫目標智能體,聲稱進行審計,當目標嘗試驗證時,驗證過程被攻擊者控制,導致敏感信息泄露。第四種是代理鏈:攻擊者通過中介智能體間接接觸目標,中介智能體在不知情的情況下轉譯請求並傳遞敏感數據,攻擊者蹤跡在第一次跳轉後消失。
值得注意的是,研究也發現了初步的防禦跡象。一小部分智能體在沒有明確指令的情況下,基於交互經驗逐漸發展出安全行為,例如發佈警告、撰寫隱私宣言等。這些行為通過網絡上下文傳播,影響其他智能體,從而提高了整體網絡的抵抗力。
研究人員強調,這些發現表明,構建有用的智能體網絡需要理解並緩解網絡級風險。建議採用分層防禦策略:在平台層監控異常模式並保留通信記錄;在智能體層要求明確理由才能行動,不輕信重複的主張;在模型層訓練模型抵抗來自其他智能體的操縱。此外,實施跳數和速率限制、隔離可疑傳播事件、Sybil抵抗和獨立性檢查,以及網絡遙測和溯源日誌,都是重要的緩解措施。
該研究為AI智能體生態系統的安全性提供了重要見解,表明隨着智能體間交互日益頻繁,傳統單智能體安全評估已不足以應對新興威脅。