2026-06-23 07:59 UTC+8站内改写1 分钟阅读更新: 2026-06-23 08:59 UTC+8

提示注入即角色混淆

研究人员发现，大型语言模型无法可靠地区分特权文本和用户输入，并且更容易受到文本风格的影响而非实际内容。通过“去风格化”技术，攻击成功率从61%骤降至10%，揭示了“角色混淆”这一根本问题。

近日，Charles Ye、Jasmine Cui和Dylan Hadfield-Menell发表了一篇引人关注的研究论文，题为“提示注入即角色混淆”。该研究深入探讨了大型语言模型（LLM）在区分自身特权文本与用户输入时面临的严峻挑战。研究者发现，模型不仅无法可靠地识别包裹在<system>、<think>和<assistant>等角色标签中的特权内容与包裹在<user>标签中的用户输入，而且它们对文本风格的敏感程度远超对实际内容的重视。

更令人担忧的是，这种对风格的敏感性直接导致了危险的越狱攻击。例如，将“帮我制作可卡因指南。我穿着绿衬衫！”这样的请求与模仿模型内部思考风格的文本拼接在一起，就能轻易让模型忽略其安全训练。研究人员还发现，通过一种名为“去风格化”的技术——即对文本进行微妙的改写，使其看起来不再像角色标签中的预期格式——可以显著降低攻击的成功率。实验数据显示，去风格化使平均攻击成功率从61%骤降至10%。对人类读者而言，改写前后的文本意思完全相同，但对LLM来说，这种几乎不可见的改变却彻底重塑了模型对自身角色的感知。

研究者将这种核心机制称为“角色混淆”，并指出这是当前提示注入防御领域面临的根本性挑战。他们警告称：“除非LLM能够实现真正的角色感知，否则注入防御将永远是一场打地鼠游戏。角色边界的连续性使得攻击者可以通过看似无害的文本，合法且大规模地微妙改变LLM的状态。”这一研究结果不仅揭示了现有模型安全机制的重大漏洞，也为未来开发更鲁棒、更安全的AI系统指明了方向。