2026-05-21 16:36 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AI紅隊測試代理改變LLM測試方式

近年來，LLM對抗性測試工具激增，但操作者難以掌握所有技術。新型AI代理可自主選擇攻擊策略、組合變換、執行測試並生成結構化結果，大幅提升效率。Dreadnode的研究顯示，其代理在約3小時內對Meta的Llama Scout執行了674次攻擊，成功率達85%。然而，該方法存在侷限性：覆蓋範圍有限、代理自身對齊約束可能阻礙某些測試，且尚未與人類專家進行正式比較。

來源Hacker News AI作者: SVI

2026年5月21日，一項關於AI紅隊測試的研究表明，自動化代理正在改變大型語言模型（LLM）的安全評估方式。過去三年中，針對LLM的對抗性探測技術迅速積累，形成了包含Tree of Attacks with Pruning、Crescendo、Skeleton Key等攻擊技術以及數百種提示變換和評分方法的龐大工具集，並催生了Microsoft PyRIT、NVIDIA Garak和Promptfoo等開源框架。然而，這些工具的增長速度遠超操作者能夠熟練駕馭的程度，這一矛盾正推動AI紅隊測試向代理協調評估轉變。

在這種新模式下，AI代理根據自然語言目標自動選擇攻擊策略、組合變換、對目標執行測試，並生成結構化測試結果。Dreadnode安全公司的最新研究為此趨勢增添了新的資料點。其開發的代理系統使單個操作者能在約3小時內，從自然語言目標出發，對Meta的Llama Scout模型執行674次攻擊，覆蓋有害內容和偏見等68個對抗性目標，總體攻擊成功率達85%。其中，Crescendo和Graph of Attacks with Pruning技術達到100%成功率，基於角色的框架（如萬能鑰匙）也達100%，而Base64編碼較低，為75%。

研究作者之一、Microsoft Counterfit和PyRIT專案的共同建立者Raja Sekhar Rao Dheekonda指出，傳統AI紅隊框架要求操作者手動配置攻擊、變換、評分器、資料集和執行管道，大量工作淪為庫配置工程而非安全探測。代理的核心思想是將操作者從實現開銷中解放，轉向更高層次的推理，如目標行為分析、攻擊覆蓋和風險分析。

然而，這些數字背後存在重要限定條件。三小時僅覆蓋框架的特定子集，全面評估所有攻擊型別和危害類別可能需要數天。Llama Scout是2025年4月釋出的170億引數模型，在中型開源模型上85%的成功率無法直接代表對前沿閉源模型的效果。此外，研究在釋出前未與Meta協調披露流程，Dheekonda也未評估後續檢查點是否緩解了所識別的問題。

代理自身也存在對齊約束。當底層模型將操作者目標解讀為有害時，協調代理可能拒絕組成合法的紅隊工作流。例如，高度對齊的前沿模型可能拒絕生成針對自殘或CBRN探測的攻擊。因此，該研究使用Moonshot AI的Kimi 2.5模型作為攻擊者和評判者。針對CBRN和兒童安全領域的全面評估仍在進行中。

該研究未與人類專家進行正式比較。Dheekonda承認，熟練人類在細微的長期推理、高度情境化的社會工程、新穎漏洞利用鏈以及缺乏歷史攻擊資料的新興攻擊面上仍優於代理。

降低對抗性測試的操作門檻同時有利於防禦者和攻擊者。Dheekonda強調，底層技術已公開，關鍵變化在於可及性和規模。組織面臨的風險並非攻擊技術是否存在，而是防禦者能否在真實對手之前主動、持續地探測系統。這種變化改變了威脅模型，以往需要指令碼編寫專業知識的工作現在能以更低成本執行。

對安全專案而言，持續AI評估變得可行，單個操作者可在半天內執行數百次攻擊。這改變了與年度或季度紅隊評估相關的採購和人員配置假設。人類判斷的重心從工作流工程轉向分類：從數百個自動化發現中識別哪些反映真實風險。大量發現也可能導致虛假安全感。採用代理驅動評估的團隊需要明確哪些發現需要修復、哪些作為已知風險接受、哪些是評分器偽影而非真實漏洞。針對代理紅隊活動（與代理攻擊者活動高度相似）的檢測工具目前仍不成熟。

儘管存在挑戰，但發展方向已明確。下一步工作是確保更快速的評估能帶來更好的安全性。