担心递归自我改进(RSI)?答案可能是CDE
一种称为CDE(组合定向演化)的AI安全框架,通过固定模型并组合经审核的工具,避免了RSI(递归自我改进)带来的不可控风险。该框架使用静态分析确保安全,将防御从对抗性运行时转移到可加固的组件上,同时保持能力增长。
定向演化——为何Safebox比RSI更安全
两种机器
一种自我重写,另一种在门控下累积。
RSI系统会改进其自身改进的能力——这正是无人能确保其安全的原因:能重写自身改进规则的事物,没有固定的表面供防御者推理。Safebox保持模型固定,通过组合经审核的工具集来实现增长。
左侧:RSI的循环反馈回模型本身,获取未经批准的权力,奔向自身设定的目标——没有任何固定可检查。右侧:CDE仅组合经批准的原始组件;模型从不改变,每次组合在运行前都通过门控。
RSI
力量与危险是同一属性——它获取未经批准的能力,追求未经设定的目标——这既是其力量的来源,也是其不可安全化的根源。
CDE
放弃一样东西,几乎保留一切——它放弃新的原始能力。但已批准工具的组合空间已然广阔——从一小套经过审核的部件中产生的寒武纪多样化。
掌舵者始终是人类。系统进行组合,而不获取。
编译器论点
将工作流变为一种语言,防御便成为编译器的一遍检查。
如今防御AI系统意味着观察行为、训练分类器、添加监控并寄希望于运气。Safebox使系统可分析:工作流是一种受限的声明式语言,每个工具携带类型元数据,因此静态分析器在运行前就能推理组合。
分析器从不运行工作流。它读取声明的图和类型清单,追踪敏感读取是否能到达外部写入,确认每个步骤都保持在声明的能力范围内,并检查每个重要效果都经过M-of-N门控——如果存在污染路径则拒绝该组合。一切在步骤执行前就已决定。
# 分析器读取的图——类型化步骤,声明效果
workflow vendor_outreach {
step find : tool=search.web // 读取·网络:搜索API
step draft : tool=llm.complete // 无效果·无网络
step send : tool=smtp.send // 写入外部·smtp
edge find → draft → send
}
// 污染·能力·效果——全部在运行前可静态判定这正是类型系统和能力安全曾经成功的举措:约束语言,使你关心的安全属性变得可证明。类型检查器证明某类崩溃不会发生,无需运行你的程序;Safebox分析器证明污染的读取不会到达外部写入,无需运行工作流。
诚实的边界
静态分析决定一类属性,而非全部——两个安全原语的组合并非总是安全,元数据本身也是一种攻击面,虚假清单可能破坏它。
因此Safebox并不宣称防御已解决。它宣称防御被重新定位——从对抗性运行时转移到三个可加固的事物:分析器的可靠性、元数据的真实性、以及语言的可判定边界。
钢骨架——非沙堡,非蜂群
钢骨架vs沙堡命名了三种构建智能的方式。沙堡(提示和氛围)在模型更新时崩塌。蜂群(涌现、自我修改)不可调试、不可证明,因为涌现并非架构。只有钢骨架能存活。
这正是CDE关于自身的警告:没有骨架的组合系统会变成蜂群。骨架——类型化的原始组件、提示外部的策略门控、可重放的执行、静态强制——使其保持为建筑物。智能体是认知;框架是架构。
一个环境,而非数百万
修补一个密封的盒子——而非组织运行的每个组合。
运行开放智能体的组织需要防御组合爆炸式的环境——每台笔记本电脑、运行器、云账户和凭证范围都是不同的攻击面。Safebox将其颠倒:一个经过认证、出口受控的盒子,一次加固和分析。
左侧:智能体接触的每个环境都是需要加固的表面,其集合组合增长。右侧:每个Safebox工作流都在同一组原始组件下的同一个盒子中运行——因此防御属性对所有工作流、租户和组织同时成立,因为它们属于基础平台,而非任务。
- O(n):你投入的信任——人类一次性批准每个工具,M-of-N
- O(2ⁿ):你获得的可治理能力——已批准工具的每个可检查组合
- 1:需要加固、分析和认证的环境——而非数百万个组合
盒子内发现的漏洞并非副作用:即使完美的利用链也无法在没有匹配的签名清单和M-of-N批准的情况下到达外部写入。更快的打补丁是在与工业级攻击的赛跑中落败;一次性地密封环境并证明边界,则逆向扩展。
每个组织都能防御的世界
如果Safebots胜过智能体,每个人的防御将变得更简单。
通常的担忧是能力和危险同步上升。CDE的全部意义就是打破这种耦合:能力随已批准工具的闭包上升;危险不会,因为新能力由经过审核的部件在密封盒子内通过静态检查组合而成。
如果Safebots大量涌现并胜过开放智能体——不是靠更聪明,而是靠组织无需押注公司于模型的克制即可部署的版本——那么AI能力持续攀升,同时防御负担下降。每个组织防御同一种密封环境,使用同一种静态分析,而非临时拼凑自己的遏制措施,并通过自己的漏洞重蹈覆辙。
赌注
它在阳光下生长,在门控下,防御者可以读取它。
CDE不会达到最后百分之一——它永远不会自主获取真正的新原始能力,正是这种放弃使其安全。对于百分之九十九的真实工作,它达到与危险机器相同的上限,但通过留下钢骨架的路径:固定模型、经过审核的工具集、声明式语言、单一密封环境,以及一个能在任何动作发生前证明盒子会做什么和不会做什么的静态分析器。
RSI在黑暗中重写自身。CDE在阳光下生长。可怕的那个版本提供了一个能力超越任何人防御能力的世界。这一个版本提供了一个能力攀升同时防御变得更简单的世界——因为力量存在于组合中,而组合是可检查的。