AI紅隊測試代理改變LLM測試方式
近年來,LLM對抗性測試工具激增,但操作者難以掌握所有技術。新型AI代理可自主選擇攻擊策略、組合變換、執行測試並生成結構化結果,大幅提升效率。Dreadnode的研究顯示,其代理在約3小時內對Meta的Llama Scout執行了674次攻擊,成功率達85%。然而,該方法存在侷限性:覆蓋範圍有限、代理自身對齊約束可能阻礙某些測試,且尚未與人類專家進行正式比較。
文章情報
要點
- AI代理可自主執行紅隊測試,從自然語言目標到執行攻擊並生成合規對映。
- Dreadnode代理對Llama Scout實現85%攻擊成功率,但針對前沿模型效果未知。
- 代理可能因對齊拒絕生成某些攻擊工作流,需使用替代模型。
- 該方法降低測試門檻,但需注意自動化發現中的誤報和風險接受問題。
為什麼重要
這條新聞值得關注,因為AI代理可自主執行紅隊測試,從自然語言目標到執行攻擊並生成合規對映。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
2026年5月21日,一項關於AI紅隊測試的研究表明,自動化代理正在改變大型語言模型(LLM)的安全評估方式。過去三年中,針對LLM的對抗性探測技術迅速積累,形成了包含Tree of Attacks with Pruning、Crescendo、Skeleton Key等攻擊技術以及數百種提示變換和評分方法的龐大工具集,並催生了Microsoft PyRIT、NVIDIA Garak和Promptfoo等開源框架。然而,這些工具的增長速度遠超操作者能夠熟練駕馭的程度,這一矛盾正推動AI紅隊測試向代理協調評估轉變。
在這種新模式下,AI代理根據自然語言目標自動選擇攻擊策略、組合變換、對目標執行測試,並生成結構化測試結果。Dreadnode安全公司的最新研究為此趨勢增添了新的資料點。其開發的代理系統使單個操作者能在約3小時內,從自然語言目標出發,對Meta的Llama Scout模型執行674次攻擊,覆蓋有害內容和偏見等68個對抗性目標,總體攻擊成功率達85%。其中,Crescendo和Graph of Attacks with Pruning技術達到100%成功率,基於角色的框架(如萬能鑰匙)也達100%,而Base64編碼較低,為75%。
研究作者之一、Microsoft Counterfit和PyRIT專案的共同建立者Raja Sekhar Rao Dheekonda指出,傳統AI紅隊框架要求操作者手動配置攻擊、變換、評分器、資料集和執行管道,大量工作淪為庫配置工程而非安全探測。代理的核心思想是將操作者從實現開銷中解放,轉向更高層次的推理,如目標行為分析、攻擊覆蓋和風險分析。
然而,這些數字背後存在重要限定條件。三小時僅覆蓋框架的特定子集,全面評估所有攻擊型別和危害類別可能需要數天。Llama Scout是2025年4月釋出的170億引數模型,在中型開源模型上85%的成功率無法直接代表對前沿閉源模型的效果。此外,研究在釋出前未與Meta協調披露流程,Dheekonda也未評估後續檢查點是否緩解了所識別的問題。
代理自身也存在對齊約束。當底層模型將操作者目標解讀為有害時,協調代理可能拒絕組成合法的紅隊工作流。例如,高度對齊的前沿模型可能拒絕生成針對自殘或CBRN探測的攻擊。因此,該研究使用Moonshot AI的Kimi 2.5模型作為攻擊者和評判者。針對CBRN和兒童安全領域的全面評估仍在進行中。
該研究未與人類專家進行正式比較。Dheekonda承認,熟練人類在細微的長期推理、高度情境化的社會工程、新穎漏洞利用鏈以及缺乏歷史攻擊資料的新興攻擊面上仍優於代理。
降低對抗性測試的操作門檻同時有利於防禦者和攻擊者。Dheekonda強調,底層技術已公開,關鍵變化在於可及性和規模。組織面臨的風險並非攻擊技術是否存在,而是防禦者能否在真實對手之前主動、持續地探測系統。這種變化改變了威脅模型,以往需要指令碼編寫專業知識的工作現在能以更低成本執行。
對安全專案而言,持續AI評估變得可行,單個操作者可在半天內執行數百次攻擊。這改變了與年度或季度紅隊評估相關的採購和人員配置假設。人類判斷的重心從工作流工程轉向分類:從數百個自動化發現中識別哪些反映真實風險。大量發現也可能導致虛假安全感。採用代理驅動評估的團隊需要明確哪些發現需要修復、哪些作為已知風險接受、哪些是評分器偽影而非真實漏洞。針對代理紅隊活動(與代理攻擊者活動高度相似)的檢測工具目前仍不成熟。
儘管存在挑戰,但發展方向已明確。下一步工作是確保更快速的評估能帶來更好的安全性。