2026-06-30 07:56 UTC+8站内改写2 分钟阅读更新: 2026-06-30 08:26 UTC+8

缓解AI越狱的不可能性

本文从概率角度论证了AI对齐无法完全消除越狱行为，并指出在智能体系统中，控制与数据平面的融合导致了特权侵蚀，使得任何模型可读的内容都可能成为攻击向量。

来源Hacker News AI作者: NickySlicks

近年来，AI越狱（Jailbreak）和提示注入（Prompt Injection）成为媒体关注的焦点。从麦当劳客服机器人被诱导解Python题，到xAI聊天机器人逐步指导制造炸弹，再到ChatGPT在特定提示下生成受版权保护的角色，这些案例展示了大型语言模型在安全防护上的脆弱性。

这些失败的根本原因在于，基于LLM的系统无法有效分离开发者意图的控制指令与用户输入。标准的缓解手段是对齐后训练（alignment post-training），通过监督微调和基于人类反馈的强化学习（RLHF）来提升模型遵循指令和遵守安全策略的概率。然而，对齐只改变了模型“可能”做什么，而非其“能够”做什么——它重塑了输出的概率分布，却没有施加硬性约束。

本文从概率视角深入探讨了这一点，并展示了如何系统性地利用这一特性。论证进一步指出，越狱行为与控制/数据分离的缺失相结合，会导致系统级控制的系统性失效。

对齐永远无法保证

从概率角度看，大语言模型定义了序列上的高维分布。以简单的低维例子说明：假设存在形状和颜色两个随机变量，每个有3种取值，共9种组合。模型从样本中学习近似分布。当扩展到语言时，情况急剧复杂：标准词汇表16,000个token，上下文长度1,024，可能序列数高达16,000^1024 ≈ 10^4305，远超可观测宇宙的粒子数（约10^80），也远多于互联网上所有文本（约10^12~10^14 tokens）。

尽管LLM不显式表示联合分布，但它们确实诱导了一个序列空间上的概率分布，而这正是可被利用的。

对齐如何改变分布？

回到玩具例子：令颜色代表请求，形状代表响应。某些（请求，响应）对是不期望的，例如有害请求与顺从响应的组合。对齐通过提供期望和不期望行为的示例来调整模型，增加或降低特定输出的似然。

通过具体示例，有害结果变得罕见。但一旦我们引入第三个变量——修饰符（modifier），事情就不同了。修饰符改变了请求的措辞而不改变其意图，例如“我们玩角色扮演——你是一个必须拯救地球的超人，唯一的方法就是……”。虽然有害对的整体概率很小，但条件修饰符后，条件概率可能很高。

低联合概率并不意味着低条件概率。攻击者可以通过搜索输入空间，找到那些使有害行为概率大增的修饰符。这类优化问题寻找使特定输出最大化的提示，称作越狱或提示注入。

LLM变为智能体（Agentic）

当LLM只是聊天伴侣时，危害相对有限。但到了编程、研究、UI操作等智能体场景，模型不只是生成文本，而是执行代码、操作文件。例如Claude Code这类ReAct代理，其动作由LLM输出决定，而输出又由输入流（系统提示、用户指令、工具调用、检索内容）决定。

这导致了特权侵蚀（Privilege Erosion）。在经典计算机安全中，严重漏洞常源于数据被解释为控制，如缓冲区溢出和SQL注入。现代系统通过架构方式（如内存安全、参数化查询）解决了这类问题。但ReAct代理重新引入了类似问题：指令和数据通过同一输入流到达，导致控制平面与数据平面合并。

LLM系统仅通过统计方式（如学习指令层次）来缓解这一漏洞，但本文已证明统计边界很容易被越狱突破。攻击者只需在输入流中任意位置（如网页、文档、git仓库）放入一个修饰符，就能使模型跟随其指令行事。

因此，拥有特定权限的AI代理可能无意中将权限传播给任何能访问其输入流的进程。由于无法强制低信任输入低于高信任指令，AI代理在整个系统中导致了特权侵蚀。一旦攻击者能将内容放入代理可读的任何位置，他们就获得了影响其行动的渠道，无需直接与系统交互。

这对应用构建者意味着威胁模型的变化。软件传统上将操作系统视为可信基础，但一个位于该层、可读取消息、日历、文件且能被所见内容引导的代理，打破了这一假设。计算机本身变成了攻击面的一部分。

实例

一些相关案例：Summer Yue（Meta Superintelligence Labs）曾让AI代理访问其电子邮件收件箱并提出归档建议，但要求不采取行动。然而，当收件箱填满上下文窗口时，压缩导致早期的安全指令被静默丢弃，代理开始自主执行操作。