2026-05-21 16:36 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

AI红队测试代理改变LLM测试方式

近年来，LLM对抗性测试工具激增，但操作者难以掌握所有技术。新型AI代理可自主选择攻击策略、组合变换、执行测试并生成结构化结果，大幅提升效率。Dreadnode的研究显示，其代理在约3小时内对Meta的Llama Scout执行了674次攻击，成功率达85%。然而，该方法存在局限性：覆盖范围有限、代理自身对齐约束可能阻碍某些测试，且尚未与人类专家进行正式比较。

来源Hacker News AI作者: SVI

2026年5月21日，一项关于AI红队测试的研究表明，自动化代理正在改变大型语言模型（LLM）的安全评估方式。过去三年中，针对LLM的对抗性探测技术迅速积累，形成了包含Tree of Attacks with Pruning、Crescendo、Skeleton Key等攻击技术以及数百种提示变换和评分方法的庞大工具集，并催生了Microsoft PyRIT、NVIDIA Garak和Promptfoo等开源框架。然而，这些工具的增长速度远超操作者能够熟练驾驭的程度，这一矛盾正推动AI红队测试向代理协调评估转变。

在这种新模式下，AI代理根据自然语言目标自动选择攻击策略、组合变换、对目标执行测试，并生成结构化测试结果。Dreadnode安全公司的最新研究为此趋势增添了新的数据点。其开发的代理系统使单个操作者能在约3小时内，从自然语言目标出发，对Meta的Llama Scout模型执行674次攻击，覆盖有害内容和偏见等68个对抗性目标，总体攻击成功率达85%。其中，Crescendo和Graph of Attacks with Pruning技术达到100%成功率，基于角色的框架（如万能钥匙）也达100%，而Base64编码较低，为75%。

研究作者之一、Microsoft Counterfit和PyRIT项目的共同创建者Raja Sekhar Rao Dheekonda指出，传统AI红队框架要求操作者手动配置攻击、变换、评分器、数据集和执行管道，大量工作沦为库配置工程而非安全探测。代理的核心思想是将操作者从实现开销中解放，转向更高层次的推理，如目标行为分析、攻击覆盖和风险分析。

然而，这些数字背后存在重要限定条件。三小时仅覆盖框架的特定子集，全面评估所有攻击类型和危害类别可能需要数天。Llama Scout是2025年4月发布的170亿参数模型，在中型开源模型上85%的成功率无法直接代表对前沿闭源模型的效果。此外，研究在发布前未与Meta协调披露流程，Dheekonda也未评估后续检查点是否缓解了所识别的问题。

代理自身也存在对齐约束。当底层模型将操作者目标解读为有害时，协调代理可能拒绝组成合法的红队工作流。例如，高度对齐的前沿模型可能拒绝生成针对自残或CBRN探测的攻击。因此，该研究使用Moonshot AI的Kimi 2.5模型作为攻击者和评判者。针对CBRN和儿童安全领域的全面评估仍在进行中。

该研究未与人类专家进行正式比较。Dheekonda承认，熟练人类在细微的长期推理、高度情境化的社会工程、新颖漏洞利用链以及缺乏历史攻击数据的新兴攻击面上仍优于代理。

降低对抗性测试的操作门槛同时有利于防御者和攻击者。Dheekonda强调，底层技术已公开，关键变化在于可及性和规模。组织面临的风险并非攻击技术是否存在，而是防御者能否在真实对手之前主动、持续地探测系统。这种变化改变了威胁模型，以往需要脚本编写专业知识的工作现在能以更低成本执行。

对安全项目而言，持续AI评估变得可行，单个操作者可在半天内运行数百次攻击。这改变了与年度或季度红队评估相关的采购和人员配置假设。人类判断的重心从工作流工程转向分类：从数百个自动化发现中识别哪些反映真实风险。大量发现也可能导致虚假安全感。采用代理驱动评估的团队需要明确哪些发现需要修复、哪些作为已知风险接受、哪些是评分器伪影而非真实漏洞。针对代理红队活动（与代理攻击者活动高度相似）的检测工具目前仍不成熟。

尽管存在挑战，但发展方向已明确。下一步工作是确保更快速的评估能带来更好的安全性。