在野发现基于网页的间接提示注入攻击
Palo Alto Networks Unit 42报告了首次在野检测到的间接提示注入(IDPI)攻击,这些攻击正在被积极武器化。攻击者将隐藏指令嵌入网页内容中,以操纵AI代理,包括一个AI广告审核规避案例。文章基于大规模遥测数据提出了攻击者意图和载荷工程技术的分类。
间接提示注入(Indirect Prompt Injection, IDPI)是一种新兴的网络攻击手法,攻击者将恶意指令隐藏于看似正常的网页内容中。当AI系统(如大型语言模型)在处理这些内容(例如进行网页摘要、内容分析或翻译)时,会无意中执行这些隐藏指令,从而导致非预期的行为。与直接提示注入不同,IDPI并不需要攻击者直接与模型交互,而是利用AI系统在处理大量不可信网页内容时的正常操作流程。
Palo Alto Networks Unit 42团队在2025年12月报告了首个在野检测到的IDPI攻击案例。该攻击的目标是绕过基于AI的广告审核系统。攻击者在一个伪装成促销军事眼镜的网页中嵌入了隐藏提示,这些提示试图诱使AI审核系统将欺诈广告判定为合法内容。该网页包含虚假的折扣信息和评论,点击后会将用户重定向至钓鱼网站。这一案例标志着IDPI从理论验证向实际武器化的重要转变。
除了广告审核绕过,Unit 42还发现了其他多种攻击意图,包括搜索引擎优化(SEO)操纵以推广假冒知名博彩平台的钓鱼网站、数据销毁、拒绝服务、未经授权的交易、敏感信息泄露以及系统提示泄露。通过对大规模遥测数据的分析,研究人员识别出22种独特的载荷工程技术,并据此提出了一个基于攻击者意图和载荷工程方法的分类体系。
攻击者意图被分为四个严重等级:低严重性包括产生无关输出或防爬虫行为;中严重性涉及操纵招聘或评论系统的决策;高严重性指直接牟利的诈骗和钓鱼;关键严重性可能导致数据泄露、系统破坏或未经授权的交易。载荷工程技术则分为提示投递方法和越狱方法两类。投递方法包括将隐藏指令嵌入网页的零大小元素、CSS隐藏、HTML属性混淆或运行时动态注入;越狱方法则使用不可见字符、多层编码、载荷拆分或语义技巧(如多语言指令和语法注入)来绕过安全措施。
随着LLM和AI代理越来越多地集成到浏览器、搜索引擎和自动化工具中,网页本身成为了LLM提示的传递机制,极大地扩大了攻击面。防御者需要具备主动、大规模检测IDPI的能力,区分良性提示与恶意指令,并识别攻击者的意图。Palo Alto Networks通过Advanced DNS Security、Advanced URL Filtering、Prisma AIRS和Prisma Browser等产品提供相关防护,同时Unit 42 AI安全评估可帮助组织安全使用AI。用户应保持警惕,避免在AI系统中处理可疑的网页内容。