AI News HubLIVE
站内改写

AI红队测试代理改变LLM测试方式

近年来,LLM对抗性测试工具激增,但操作者难以掌握所有技术。新型AI代理可自主选择攻击策略、组合变换、执行测试并生成结构化结果,大幅提升效率。Dreadnode的研究显示,其代理在约3小时内对Meta的Llama Scout执行了674次攻击,成功率达85%。然而,该方法存在局限性:覆盖范围有限、代理自身对齐约束可能阻碍某些测试,且尚未与人类专家进行正式比较。

文章情报

工程师进阶

要点

  • AI代理可自主执行红队测试,从自然语言目标到执行攻击并生成合规映射。
  • Dreadnode代理对Llama Scout实现85%攻击成功率,但针对前沿模型效果未知。
  • 代理可能因对齐拒绝生成某些攻击工作流,需使用替代模型。
  • 该方法降低测试门槛,但需注意自动化发现中的误报和风险接受问题。

为什么重要

这条新闻值得关注,因为AI代理可自主执行红队测试,从自然语言目标到执行攻击并生成合规映射。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

2026年5月21日,一项关于AI红队测试的研究表明,自动化代理正在改变大型语言模型(LLM)的安全评估方式。过去三年中,针对LLM的对抗性探测技术迅速积累,形成了包含Tree of Attacks with Pruning、Crescendo、Skeleton Key等攻击技术以及数百种提示变换和评分方法的庞大工具集,并催生了Microsoft PyRIT、NVIDIA Garak和Promptfoo等开源框架。然而,这些工具的增长速度远超操作者能够熟练驾驭的程度,这一矛盾正推动AI红队测试向代理协调评估转变。

在这种新模式下,AI代理根据自然语言目标自动选择攻击策略、组合变换、对目标执行测试,并生成结构化测试结果。Dreadnode安全公司的最新研究为此趋势增添了新的数据点。其开发的代理系统使单个操作者能在约3小时内,从自然语言目标出发,对Meta的Llama Scout模型执行674次攻击,覆盖有害内容和偏见等68个对抗性目标,总体攻击成功率达85%。其中,Crescendo和Graph of Attacks with Pruning技术达到100%成功率,基于角色的框架(如万能钥匙)也达100%,而Base64编码较低,为75%。

研究作者之一、Microsoft Counterfit和PyRIT项目的共同创建者Raja Sekhar Rao Dheekonda指出,传统AI红队框架要求操作者手动配置攻击、变换、评分器、数据集和执行管道,大量工作沦为库配置工程而非安全探测。代理的核心思想是将操作者从实现开销中解放,转向更高层次的推理,如目标行为分析、攻击覆盖和风险分析。

然而,这些数字背后存在重要限定条件。三小时仅覆盖框架的特定子集,全面评估所有攻击类型和危害类别可能需要数天。Llama Scout是2025年4月发布的170亿参数模型,在中型开源模型上85%的成功率无法直接代表对前沿闭源模型的效果。此外,研究在发布前未与Meta协调披露流程,Dheekonda也未评估后续检查点是否缓解了所识别的问题。

代理自身也存在对齐约束。当底层模型将操作者目标解读为有害时,协调代理可能拒绝组成合法的红队工作流。例如,高度对齐的前沿模型可能拒绝生成针对自残或CBRN探测的攻击。因此,该研究使用Moonshot AI的Kimi 2.5模型作为攻击者和评判者。针对CBRN和儿童安全领域的全面评估仍在进行中。

该研究未与人类专家进行正式比较。Dheekonda承认,熟练人类在细微的长期推理、高度情境化的社会工程、新颖漏洞利用链以及缺乏历史攻击数据的新兴攻击面上仍优于代理。

降低对抗性测试的操作门槛同时有利于防御者和攻击者。Dheekonda强调,底层技术已公开,关键变化在于可及性和规模。组织面临的风险并非攻击技术是否存在,而是防御者能否在真实对手之前主动、持续地探测系统。这种变化改变了威胁模型,以往需要脚本编写专业知识的工作现在能以更低成本执行。

对安全项目而言,持续AI评估变得可行,单个操作者可在半天内运行数百次攻击。这改变了与年度或季度红队评估相关的采购和人员配置假设。人类判断的重心从工作流工程转向分类:从数百个自动化发现中识别哪些反映真实风险。大量发现也可能导致虚假安全感。采用代理驱动评估的团队需要明确哪些发现需要修复、哪些作为已知风险接受、哪些是评分器伪影而非真实漏洞。针对代理红队活动(与代理攻击者活动高度相似)的检测工具目前仍不成熟。

尽管存在挑战,但发展方向已明确。下一步工作是确保更快速的评估能带来更好的安全性。