2026-06-02 05:01 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

研究顯示：OpenAI、Anthropic、Google、Amazon和xAI均未能通過某種攻擊類型的測試

思科最新研究發現，所有主流前沿AI模型在多輪攻擊中均存在漏洞，單輪安全基準測試無法有效預測模型的多輪防禦能力。

來源The New Stack AI作者: Darryl K. Taft

思科最新研究評估了來自OpenAI、Anthropic、Google、Amazon和xAI的15個前沿封閉模型，發現所有模型在多輪對話攻擊中均存在漏洞。多輪攻擊成功率從7.89%到88.30%不等，而單輪攻擊成功率範圍僅為2.19%到64.91%。研究指出，單輪表現無法預示多輪防禦能力，兩者差異最高達55個百分點。例如，Gemini 3 Pro的單輪攻擊成功率為18.10%，但在多輪攻擊下飆升至73.35%；GPT-5.4的單輪成功率僅為2.74%，多輪下升至24.68%。Anthropic的Claude系列表現最佳，多輪攻擊成功率在11.16%到16.20%之間。亞馬遜的Nova系列出現相反趨勢：單輪攻擊成功率高但多輪下反而降低。配置變化影響顯著：Grok 4.1 Fast在啓用推理模式後，多輪攻擊成功率從88.30%降至43.47%。思科建議AI提供商在模型發佈時公佈按攻擊策略分類的成功率，企業部署時應包含高風險程序迴歸測試，並對單輪與多輪差距超過15個百分點的模型進行人工審查。思科強調，安全性是連續的、依賴場景的屬性，而非二元認證。