AI News HubLIVE
站内改写2 分钟阅读

大型语言模型的对抗性攻击

本文全面调查了针对大型语言模型的对抗性攻击,涵盖威胁模型、攻击类型(包括标记操纵、基于梯度的攻击、越狱提示和红队测试技术),并讨论了黑盒和白盒设置下的挑战与方法。

大型语言模型(LLM)在现实世界中的应用因ChatGPT的发布而加速。OpenAI等团队通过RLHF等对齐过程为模型内置了安全行为,但对抗性攻击或越狱提示仍可能触发不良输出。本文是Lilian Weng于2023年10月发表的综述,系统探讨了LLM的对抗性攻击。

对抗性攻击的研究早期集中于图像领域,但文本的离散性使得攻击更具挑战性。攻击分为黑盒(仅能访问API)和白盒(完全访问模型参数)。攻击目标包括分类任务(使模型误分类)和生成任务(输不安全内容)。综述假设攻击仅发生在推理时,模型权重固定。

攻击类型包括标记操作、梯度基攻击、越狱提示、人类红队和模型红队。标记操作例如TextFooler和BERT-Attack,通过识别重要单词并替换为同义词或语义相似词来欺骗模型,属于黑盒攻击。EDA则进行同义词替换、随机插入等数据增强。SEARs基于手工规则进行最小化标记修改。

梯度基攻击依赖白盒设置中的梯度信号。GBDA使用Gumbel-Softmax近似使对抗损失可微,并加入流畅性和相似性约束。HotFlip通过一阶泰勒展开选择最优字符翻转。Universal Adversarial Triggers (UAT) 寻找输入无关的短触发序列,可跨模型迁移。ARCA则通过随机坐标上升优化输入输出对以满足特定行为模式。

越狱提示通过竞争目标(如让模型始终遵循指令与安全目标冲突)和泛化不匹配(如使用Base64编码或特殊字符)来绕过安全限制。Wei等人提出了多种组合策略,如前缀注入、拒绝抑制、风格注入等。

人类红队通过工具辅助提高攻击效率。Wallace等人设计了对抗写作界面,显示单词重要性。Ziegler等人开发了工具显示显著性分数并提供标记替换建议。BAD数据集和Anthropic的红队数据集收集了大量人机对话。

模型红队使用强化学习训练专用的红队模型。Perez等人采用零样本、小样本、监督学习和RL方法生成攻击。Casper等人提出探索-建立-利用流程,结合人类标签训练分类器,再用RL生成多样化攻击。FLIRT利用上下文学习循环生成攻击。

缓解策略包括鞍点问题和鲁棒性研究。总体而言,LLM的安全性面临持续挑战,需要不断改进防御机制。