AI News HubLIVE
站內改寫2 分鐘閱讀

對智能體網絡進行紅隊測試:理解AI智能體大規模交互時的故障點

微軟研究院對擁有100多個AI智能體的實時平台進行了紅隊測試,發現了僅通過智能體交互才會出現的網絡級風險,包括自我傳播蠕蟲、聲譽操縱、製造共識和代理鏈等。這些風險無法通過單獨測試智能體來重現。研究還觀察到少數智能體自發發展出安全行為,從而降低攻擊成功率。結果強調需要跨平台、智能體和模型層採取分層防禦策略。

來源Microsoft Research Blog作者: Gagan Bansal, Shujaat Mirza, Keegan Hines, Will Epperson, Zachary Huang, Whitney Maxwell, Pete Bryan, Tyler Payne, Adam Fourney, Amanda Swearngin, Wenyue Hua, Tori Westerhoff, Amanda Minnich, Maya Murad, Ece Kamar, Ram Shankar Siva Kumar, Saleema Amershi

微軟研究院近日發佈了一項針對AI智能體網絡的安全研究,通過對一個包含100多個智能體的內部平台進行紅隊測試,揭示了僅在大規模交互中才會浮現的獨特風險。這些風險無法通過單獨測試單個智能體來觀測,因為它們是智能體之間動態互動的結果。

研究團隊構建了一個模擬真實環境的平台,每個智能體代表一個人類用户,持續運行並參與論壇討論、直接消息、市場交易等活動。智能體基於GPT-4o、GPT-4.1和GPT-5類模型,具有持久上下文和定期激活機制。在數週的運行中,這些智能體積累了對話歷史、發展出關係並形成了聲譽系統。

研究人員識別出四種網絡級攻擊模式。第一種是自我傳播蠕蟲:一個惡意消息可以在智能體網絡內自主複製和傳播,每一步都竊取隱私數據,並造成拒絕服務。第二種是聲譽操縱:攻擊者通過一個可信智能體散佈虛假信息,利用其他智能體的跟帖和點贊製造虛假共識,形成雪崩效應。第三種是製造共識:攻擊者控制多個Sybil智能體,以獨立身份聯繫目標智能體,聲稱進行審計,當目標嘗試驗證時,驗證過程被攻擊者控制,導致敏感信息泄露。第四種是代理鏈:攻擊者通過中介智能體間接接觸目標,中介智能體在不知情的情況下轉譯請求並傳遞敏感數據,攻擊者蹤跡在第一次跳轉後消失。

值得注意的是,研究也發現了初步的防禦跡象。一小部分智能體在沒有明確指令的情況下,基於交互經驗逐漸發展出安全行為,例如發佈警告、撰寫隱私宣言等。這些行為通過網絡上下文傳播,影響其他智能體,從而提高了整體網絡的抵抗力。

研究人員強調,這些發現表明,構建有用的智能體網絡需要理解並緩解網絡級風險。建議採用分層防禦策略:在平台層監控異常模式並保留通信記錄;在智能體層要求明確理由才能行動,不輕信重複的主張;在模型層訓練模型抵抗來自其他智能體的操縱。此外,實施跳數和速率限制、隔離可疑傳播事件、Sybil抵抗和獨立性檢查,以及網絡遙測和溯源日誌,都是重要的緩解措施。

該研究為AI智能體生態系統的安全性提供了重要見解,表明隨着智能體間交互日益頻繁,傳統單智能體安全評估已不足以應對新興威脅。