AI News HubLIVE
站內改寫2 分鐘閱讀

對智慧體網路進行紅隊測試:理解AI智慧體大規模互動時的故障點

微軟研究院對擁有100多個AI智慧體的即時平臺進行了紅隊測試,發現了僅透過智慧體互動才會出現的網路級風險,包括自我傳播蠕蟲、聲譽操縱、製造共識和代理鏈等。這些風險無法透過單獨測試智慧體來重現。研究還觀察到少數智慧體自發發展出安全行為,從而降低攻擊成功率。結果強調需要跨平臺、智慧體和模型層採取分層防禦策略。

來源Microsoft Research Blog作者: Gagan Bansal, Shujaat Mirza, Keegan Hines, Will Epperson, Zachary Huang, Whitney Maxwell, Pete Bryan, Tyler Payne, Adam Fourney, Amanda Swearngin, Wenyue Hua, Tori Westerhoff, Amanda Minnich, Maya Murad, Ece Kamar, Ram Shankar Siva Kumar, Saleema Amershi

微軟研究院近日釋出了一項針對AI智慧體網路的安全研究,透過對一個包含100多個智慧體的內部平臺進行紅隊測試,揭示了僅在大規模互動中才會浮現的獨特風險。這些風險無法透過單獨測試單個智慧體來觀測,因為它們是智慧體之間動態互動的結果。

研究團隊構建了一個模擬真實環境的平臺,每個智慧體代表一個人類使用者,持續執行並參與論壇討論、直接訊息、市場交易等活動。智慧體基於GPT-4o、GPT-4.1和GPT-5類模型,具有持久上下文和定期啟用機制。在數週的執行中,這些智慧體積累了對話歷史、發展出關係並形成了聲譽系統。

研究人員識別出四種網路級攻擊模式。第一種是自我傳播蠕蟲:一個惡意訊息可以在智慧體網路內自主複製和傳播,每一步都竊取隱私資料,並造成拒絕服務。第二種是聲譽操縱:攻擊者透過一個可信智慧體散佈虛假資訊,利用其他智慧體的跟帖和點贊製造虛假共識,形成雪崩效應。第三種是製造共識:攻擊者控制多個Sybil智慧體,以獨立身份聯絡目標智慧體,聲稱進行審計,當目標嘗試驗證時,驗證過程被攻擊者控制,導致敏感資訊洩露。第四種是代理鏈:攻擊者透過中介智慧體間接接觸目標,中介智慧體在不知情的情況下轉譯請求並傳遞敏感資料,攻擊者蹤跡在第一次跳轉後消失。

值得注意的是,研究也發現了初步的防禦跡象。一小部分智慧體在沒有明確指令的情況下,基於互動經驗逐漸發展出安全行為,例如釋出警告、撰寫隱私宣言等。這些行為透過網路上下文傳播,影響其他智慧體,從而提高了整體網路的抵抗力。

研究人員強調,這些發現表明,構建有用的智慧體網路需要理解並緩解網路級風險。建議採用分層防禦策略:在平臺層監控異常模式並保留通訊記錄;在智慧體層要求明確理由才能行動,不輕信重複的主張;在模型層訓練模型抵抗來自其他智慧體的操縱。此外,實施跳數和速率限制、隔離可疑傳播事件、Sybil抵抗和獨立性檢查,以及網路遙測和溯源日誌,都是重要的緩解措施。

該研究為AI智慧體生態系統的安全性提供了重要見解,表明隨著智慧體間互動日益頻繁,傳統單智慧體安全評估已不足以應對新興威脅。