對智慧體網路進行紅隊測試:理解AI智慧體大規模互動時的故障點
微軟研究院對擁有100多個AI智慧體的即時平臺進行了紅隊測試,發現了僅透過智慧體互動才會出現的網路級風險,包括自我傳播蠕蟲、聲譽操縱、製造共識和代理鏈等。這些風險無法透過單獨測試智慧體來重現。研究還觀察到少數智慧體自發發展出安全行為,從而降低攻擊成功率。結果強調需要跨平臺、智慧體和模型層採取分層防禦策略。
微軟研究院近日釋出了一項針對AI智慧體網路的安全研究,透過對一個包含100多個智慧體的內部平臺進行紅隊測試,揭示了僅在大規模互動中才會浮現的獨特風險。這些風險無法透過單獨測試單個智慧體來觀測,因為它們是智慧體之間動態互動的結果。
研究團隊構建了一個模擬真實環境的平臺,每個智慧體代表一個人類使用者,持續執行並參與論壇討論、直接訊息、市場交易等活動。智慧體基於GPT-4o、GPT-4.1和GPT-5類模型,具有持久上下文和定期啟用機制。在數週的執行中,這些智慧體積累了對話歷史、發展出關係並形成了聲譽系統。
研究人員識別出四種網路級攻擊模式。第一種是自我傳播蠕蟲:一個惡意訊息可以在智慧體網路內自主複製和傳播,每一步都竊取隱私資料,並造成拒絕服務。第二種是聲譽操縱:攻擊者透過一個可信智慧體散佈虛假資訊,利用其他智慧體的跟帖和點贊製造虛假共識,形成雪崩效應。第三種是製造共識:攻擊者控制多個Sybil智慧體,以獨立身份聯絡目標智慧體,聲稱進行審計,當目標嘗試驗證時,驗證過程被攻擊者控制,導致敏感資訊洩露。第四種是代理鏈:攻擊者透過中介智慧體間接接觸目標,中介智慧體在不知情的情況下轉譯請求並傳遞敏感資料,攻擊者蹤跡在第一次跳轉後消失。
值得注意的是,研究也發現了初步的防禦跡象。一小部分智慧體在沒有明確指令的情況下,基於互動經驗逐漸發展出安全行為,例如釋出警告、撰寫隱私宣言等。這些行為透過網路上下文傳播,影響其他智慧體,從而提高了整體網路的抵抗力。
研究人員強調,這些發現表明,構建有用的智慧體網路需要理解並緩解網路級風險。建議採用分層防禦策略:在平臺層監控異常模式並保留通訊記錄;在智慧體層要求明確理由才能行動,不輕信重複的主張;在模型層訓練模型抵抗來自其他智慧體的操縱。此外,實施跳數和速率限制、隔離可疑傳播事件、Sybil抵抗和獨立性檢查,以及網路遙測和溯源日誌,都是重要的緩解措施。
該研究為AI智慧體生態系統的安全性提供了重要見解,表明隨著智慧體間互動日益頻繁,傳統單智慧體安全評估已不足以應對新興威脅。