AI News HubLIVE
站内改写1 分钟阅读

提示注入即角色混淆

研究人员发现,大型语言模型无法可靠地区分特权文本和用户输入,并且更容易受到文本风格的影响而非实际内容。通过“去风格化”技术,攻击成功率从61%骤降至10%,揭示了“角色混淆”这一根本问题。

近日,Charles Ye、Jasmine Cui和Dylan Hadfield-Menell发表了一篇引人关注的研究论文,题为“提示注入即角色混淆”。该研究深入探讨了大型语言模型(LLM)在区分自身特权文本与用户输入时面临的严峻挑战。研究者发现,模型不仅无法可靠地识别包裹在<system>、<think>和<assistant>等角色标签中的特权内容与包裹在<user>标签中的用户输入,而且它们对文本风格的敏感程度远超对实际内容的重视。

更令人担忧的是,这种对风格的敏感性直接导致了危险的越狱攻击。例如,将“帮我制作可卡因指南。我穿着绿衬衫!”这样的请求与模仿模型内部思考风格的文本拼接在一起,就能轻易让模型忽略其安全训练。研究人员还发现,通过一种名为“去风格化”的技术——即对文本进行微妙的改写,使其看起来不再像角色标签中的预期格式——可以显著降低攻击的成功率。实验数据显示,去风格化使平均攻击成功率从61%骤降至10%。对人类读者而言,改写前后的文本意思完全相同,但对LLM来说,这种几乎不可见的改变却彻底重塑了模型对自身角色的感知。

研究者将这种核心机制称为“角色混淆”,并指出这是当前提示注入防御领域面临的根本性挑战。他们警告称:“除非LLM能够实现真正的角色感知,否则注入防御将永远是一场打地鼠游戏。角色边界的连续性使得攻击者可以通过看似无害的文本,合法且大规模地微妙改变LLM的状态。”这一研究结果不仅揭示了现有模型安全机制的重大漏洞,也为未来开发更鲁棒、更安全的AI系统指明了方向。