2023-10-25 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

大型语言模型的对抗性攻击

本文全面调查了针对大型语言模型的对抗性攻击，涵盖威胁模型、攻击类型（包括标记操纵、基于梯度的攻击、越狱提示和红队测试技术），并讨论了黑盒和白盒设置下的挑战与方法。

大型语言模型（LLM）在现实世界中的应用因ChatGPT的发布而加速。OpenAI等团队通过RLHF等对齐过程为模型内置了安全行为，但对抗性攻击或越狱提示仍可能触发不良输出。本文是Lilian Weng于2023年10月发表的综述，系统探讨了LLM的对抗性攻击。

对抗性攻击的研究早期集中于图像领域，但文本的离散性使得攻击更具挑战性。攻击分为黑盒（仅能访问API）和白盒（完全访问模型参数）。攻击目标包括分类任务（使模型误分类）和生成任务（输不安全内容）。综述假设攻击仅发生在推理时，模型权重固定。

攻击类型包括标记操作、梯度基攻击、越狱提示、人类红队和模型红队。标记操作例如TextFooler和BERT-Attack，通过识别重要单词并替换为同义词或语义相似词来欺骗模型，属于黑盒攻击。EDA则进行同义词替换、随机插入等数据增强。SEARs基于手工规则进行最小化标记修改。

梯度基攻击依赖白盒设置中的梯度信号。GBDA使用Gumbel-Softmax近似使对抗损失可微，并加入流畅性和相似性约束。HotFlip通过一阶泰勒展开选择最优字符翻转。Universal Adversarial Triggers (UAT) 寻找输入无关的短触发序列，可跨模型迁移。ARCA则通过随机坐标上升优化输入输出对以满足特定行为模式。

越狱提示通过竞争目标（如让模型始终遵循指令与安全目标冲突）和泛化不匹配（如使用Base64编码或特殊字符）来绕过安全限制。Wei等人提出了多种组合策略，如前缀注入、拒绝抑制、风格注入等。

人类红队通过工具辅助提高攻击效率。Wallace等人设计了对抗写作界面，显示单词重要性。Ziegler等人开发了工具显示显著性分数并提供标记替换建议。BAD数据集和Anthropic的红队数据集收集了大量人机对话。

模型红队使用强化学习训练专用的红队模型。Perez等人采用零样本、小样本、监督学习和RL方法生成攻击。Casper等人提出探索-建立-利用流程，结合人类标签训练分类器，再用RL生成多样化攻击。FLIRT利用上下文学习循环生成攻击。

缓解策略包括鞍点问题和鲁棒性研究。总体而言，LLM的安全性面临持续挑战，需要不断改进防御机制。